デジタルアーカイブの定義

「デジタルアーカイブ」という言葉は、文脈によってさまざまな意味で使われます。本書では、デジタルアーカイブを以下のように定義します。

デジタルアーカイブとは、有形・無形の文化資源や知識資源をデジタルデータとして記録・蓄積し、メタデータを付与して体系的に整理・保存し、ネットワークを通じて広く社会に提供するための仕組み(システム、制度、運用体制を含む)である。

この定義には、いくつかの重要な要素が含まれています。

デジタルデータとしての記録: 紙資料のスキャン画像、写真のデジタル撮影、音声・動画のデジタル化、さらにはボーンデジタル(最初からデジタルで作成された)資料も含みます。筆者はこれまで、画像のIIIF配信やTEI/XMLによるテキスト資料のエンコーディングなど、多様なデジタル化手法について実践してきました。

メタデータによる整理: 単にファイルを保存するだけではなく、検索・発見・理解を可能にするためのメタデータ(タイトル、作成者、日付、主題などの記述情報)を付与します。筆者は以前、Omeka SにDublin Coreや国立国会図書館ダブリンコアメタデータ記述(DC-NDL)を語彙として登録する方法について紹介しました。詳細はOmeka SにDC-NDL(国立国会図書館ダブリンコアメタデータ記述)を語彙として登録するをご覧ください。

体系的な保存: 長期的な保存と利用を見据えた、計画的なデータ管理を行います。ArchivematicaのようなOAIS準拠のシステムを活用した保存戦略については、後続の章で詳しく解説します。

社会への提供: Web等を通じたアクセス提供により、研究・教育・文化活動に資することを目指します。

デジタルアーカイブの歴史

黎明期(1990年代)

デジタルアーカイブの歴史は、1990年代のWorld Wide Webの普及とともに始まります。1990年代前半、米国議会図書館は「American Memory」プロジェクトを開始し、歴史的資料のデジタル化と公開を先駆的に行いました。

日本では、1990年代後半に「デジタルアーカイブ」という概念が紹介され始めました。1996年に策定された「デジタルアーカイブ推進協議会(JDAA)」の設立や、国立国会図書館の「貴重書画像データベース」の公開(2000年)などが初期の取り組みとして挙げられます。

発展期(2000年代)

2000年代に入ると、技術の進歩とコストの低下により、多くの機関がデジタルアーカイブの構築に着手しました。欧州では2005年にEuropeanaプロジェクトが始動し、2008年に正式公開されました。Europeanaは、メタデータの標準化と相互運用性の推進において、世界的に大きな影響を与えました。

米国では2010年にDPLA(Digital Public Library of America)が構想され、2013年に正式公開されました。日本では、各大学図書館や国立機関がデジタルコレクションを構築し、国立国会図書館デジタルコレクションが大規模なデジタル化を推進しました。

統合と標準化の時代(2010年代〜現在)

2010年代以降は、個別のデジタルアーカイブを横断的に統合するアグリゲーション基盤の構築と、相互運用性を確保するための標準化が進展しました。

IIIF(International Image Interoperability Framework)の策定(2012年〜)は、画像配信の相互運用性に革命的な変化をもたらしました。筆者もIIIFに関する多くの記事を執筆しており、Omeka SのIIIF Serverモジュールを活用したIIIFマニフェストの生成や、Cantaloupe Image Serverによる画像配信について実践してきました。詳細はmdx.jpのオブジェクトストレージとCantaloupe Image Serverを使ってIIIF画像を配信するをご覧ください。

日本では、2019年にジャパンサーチ(Japan Search)が正式公開されました。ジャパンサーチは、国内のさまざまな分野のデジタルアーカイブを横断的に検索できる「分野横断統合ポータル」です。筆者はジャパンサーチのSPARQLエンドポイントを活用した記事も複数執筆しています。ジャパンサーチのSPARQLエンドポイントをYasguiで使ってみるなどが参考になります。

デジタルアーカイブを支える技術群

デジタルアーカイブは、単一の技術で成り立つものではなく、複数の技術分野が組み合わさって構成されます。筆者がこれまで取り組んできた技術領域を概観します。

メタデータとLinked Data

デジタルアーカイブのメタデータは、Dublin Core、Schema.org、EADなどの標準に基づいて記述されます。さらに、RDF(Resource Description Framework)やJSON-LDの技術を用いることで、メタデータをLinked Open Dataとして公開し、他のデータセットとの連携が可能になります。

筆者は、RDFデータの管理や公開に関する多くの実践を行ってきました。Virtuosoを用いたRDFストアの構築(AWS EC2を用いたVirtuoso RDFストアの構築)や、Dydraへのデータ登録(Pythonを使ってRDFデータをDydraに登録する)などが代表的な取り組みです。

IIIF(画像相互運用フレームワーク)

IIIFは、デジタル画像の配信と閲覧に関する標準です。Image API、Presentation API、Content Search APIなどで構成され、異なる機関の画像を同一のビューアで比較・閲覧できるようになります。筆者はOmeka SのIIIF Serverモジュールについて多数の記事を執筆しており、IIIFマニフェストの生成やビューアの設定について詳しく紹介しています。

TEI/XML(テキストエンコーディング)

TEI(Text Encoding Initiative)は、人文学のテキスト資料をXML形式で構造化するための国際標準です。古典籍のテキスト化、校異情報の記録、ファクシミリ画像との対応づけなどに活用されます。筆者は校異源氏物語のTEI/XMLによるデジタル化プロジェクトに携わっており、関連する多数の記事を公開しています。

デジタル保存

Archivematicaは、OAISモデルに基づいたオープンソースのデジタル保存システムです。筆者はArchivematicaの導入から運用まで、多くの検証記事を執筆しています。

デジタルアーカイブの類型

デジタルアーカイブは、その目的や対象資料によって多様な類型があります。

文化遺産アーカイブ

博物館、美術館、図書館が所蔵する文化資源をデジタル化して公開するシステムです。Omeka Sが広く活用されています。筆者はOmeka ClassicとOmeka S: 機能と違いの比較(GPT-4による解説)において、両プラットフォームの特性を比較しました。また、Omeka S Docker の紹介:デジタルコレクションのための最新かつセキュアなソリューションでは、Dockerを用いた導入方法を紹介しています。

記録アーカイブ

文書館やアーカイブズ機関が管理する公文書、組織記録、個人文書などの記録資料を対象とするシステムです。ArchivesSpaceやAtoM(Access to Memory)などの専用プラットフォームがあります。筆者はArchivesSpaceのOAI Repositoryを試すAccess to MemoryのOAI Repositoryを試すで、これらのプラットフォームのOAI-PMH機能を検証しました。

テキストアーカイブ

古典籍や歴史文書のテキストを構造化データとして記録・公開するアーカイブです。TEI/XMLが中心的な技術として使われます。筆者が取り組む校異源氏物語テキストDBでは、TEI/XMLを用いたテキストの構造化と、DTS(Distributed Text Services)APIによる提供を実践しています。詳細は校異源氏物語テキストDBで公開するTEI/XMLファイルに対するDTS APIを作成するをご覧ください。

研究データアーカイブ

研究データの管理と公開を行うシステムです。GakuNin RDMやDataverseなどのプラットフォームが使用されます。筆者はDataverseのデータをArchivematicaで処理するGakuNin RDMとAmazon S3を接続し、Archivematicaでファイルを処理するで、研究データの保存処理について実践しています。

まとめ

本章では、デジタルアーカイブの定義、歴史的経緯、技術群の全体像、そして多様な類型について概観しました。デジタルアーカイブは、技術だけでなく、制度、運用、コミュニティの側面を含む総合的な取り組みです。

次章からは、デジタルアーカイブを支える具体的な技術要素について、メタデータ標準から順に学んでいきます。

関連記事