メタデータとは

メタデータとは、「データについてのデータ」です。デジタルアーカイブにおけるメタデータは、デジタルオブジェクト(画像、文書、音声、動画など)の発見、識別、利用を可能にするための記述情報です。

メタデータは一般的に以下の3種類に分類されます。

記述メタデータ(Descriptive Metadata): リソースの識別と発見に使われる情報。タイトル、作成者、主題、日付など。

管理メタデータ(Administrative Metadata): リソースの管理に必要な情報。ファイルフォーマット、作成日時、アクセス権、保存に関する情報など。

構造メタデータ(Structural Metadata): リソース間の関係や構造を表す情報。書籍の章立て、資料群の階層構造など。

良質なメタデータは、デジタルアーカイブの利用価値を根本的に左右します。どれほど貴重な資料をデジタル化しても、適切なメタデータがなければ利用者はその資料を発見できません。

Dublin Core

Dublin Core(ダブリンコア)は、最も広く使われているメタデータ標準の一つです。ISO 15836として国際標準化されており、15の基本要素で構成されます。

筆者はOmeka Sにおいて、Dublin Coreを基盤としたメタデータ管理を多数実践してきました。Omeka SはDublin Core Termsをネイティブにサポートしており、リソーステンプレートを用いて入力項目をプロジェクトに合わせてカスタマイズできます。

さらに、日本のデジタルアーカイブにおいては、国立国会図書館が策定したDC-NDL(国立国会図書館ダブリンコアメタデータ記述)が重要です。筆者は以前、Omeka SにDC-NDLの語彙を登録する方法を紹介しました。詳細はOmeka SにDC-NDL(国立国会図書館ダブリンコアメタデータ記述)を語彙として登録するをご覧ください。

{
  "@context": {
    "dcterms": "http://purl.org/dc/terms/",
    "dc": "http://purl.org/dc/elements/1.1/"
  },
  "@id": "https://example.org/items/001",
  "dcterms:title": "東海道五十三次 日本橋",
  "dcterms:creator": "歌川広重",
  "dcterms:date": "1833",
  "dcterms:type": "StillImage",
  "dcterms:subject": ["浮世絵", "東海道", "風景画"],
  "dcterms:rights": "Public Domain"
}

Omeka Sでの語彙管理

Omeka Sの大きな特徴は、RDFに基づいた語彙管理の仕組みです。Dublin Coreだけでなく、任意のRDF語彙をインポートして使用できます。

筆者は、Omeka Sへの語彙追加について複数の記事を執筆しています。標準語彙の追加方法については【Omeka S Tips】既存の標準語彙の追加方法で解説しました。また、ICA RiC-O(Records in Contexts - Ontology)の登録についてはOmeka SにICA RiC-Oの語彙を登録するで、PROV-Oオントロジーの登録についてはOmeka SにPROV-Oオントロジーを登録する方法で紹介しています。

独自の語彙が必要な場合は、CustomOntologyモジュールを活用できます。Omeka SのCustomOntologyモジュールを使って、クラスやプロパティを追加するで、その使い方を解説しました。また、カスタムオントロジーの更新方法についてはOmeka Sのカスタムオントロジーを用いて作成した語彙を更新するをご覧ください。

TEI/XMLによるメタデータ記述

TEI(Text Encoding Initiative)は、人文学のテキスト資料をXML形式で構造化するための国際標準です。TEI/XMLはテキスト本体のエンコーディングだけでなく、<teiHeader>要素を通じて詳細なメタデータを記述できます。

TEI Headerには、以下のような情報を記述できます。

  • ファイル記述(<fileDesc>): タイトル、著者、出版情報
  • エンコーディング記述(<encodingDesc>): エンコーディング方針
  • プロファイル記述(<profileDesc>): テキストの言語、主題、作成状況
  • 改訂記述(<revisionDesc>): 改訂履歴

筆者はTEI/XMLを活用したプロジェクトとして、校異源氏物語テキストDBの構築に取り組んでいます。WordファイルからTEI/XMLへの変換についてはWordをTEI/XMLに変換するWordファイルをTEI XMLに変換する方法:TEIgarage APIの活用ガイで方法を紹介しました。また、TEI Garage APIを使った変換ツールも作成しました。詳細はTEI Garage APIを使って、DOCX → TEI/XML 変換ツールをブラウザだけで作ったをご覧ください。

TEI/XMLのカスタマイズにはODD(One Document Does it all)が使われます。プロジェクトに応じたスキーマの制約設計についてはRomaを使ってプロジェクトに応じたタグを限定し、解説を作成するTEI ODDによるIIIF対応ファクシミリ記述の制約設計で解説しました。

RDFとLinked Data

RDF(Resource Description Framework)は、Web上のリソースの関係性を記述するためのW3C標準フレームワークです。すべての情報を「主語(Subject)- 述語(Predicate)- 目的語(Object)」のトリプル(三つ組)で表現します。

筆者はRDFデータの作成・管理・公開に関する豊富な実践を持っています。Excelからのrdfデータ作成についてはExcelからRDFを作成するで、Visioを使った方法についてはMicrosoft Visioを使ってRDFデータを作成するで紹介しました。

JSON-LD

JSON-LD(JSON for Linked Data)は、JSONにLinked Dataのセマンティクスを付与するための仕様です。IIIFマニフェストやOmeka SのAPIレスポンスなど、デジタルアーカイブの多くの場面で使用されます。

筆者は、JSON-LDと他のRDFシリアライゼーション形式の変換についても検証しています。EASY RDFを用いてJSON-LDのデータをRDF/XMLやTurtleに変換してみるでは、実際の変換手法を紹介しました。

RDF、Turtle、JSON-LD、そしてIIIFマニフェストファイルの関係については、RDF、TurtleやJSON-LD、およびIIIFマニフェストファイルなどの関係を理解するで体系的に解説しています。

RDFの検証

RDFデータの品質を保つためのスキーマ検証技術として、ShEx(Shape Expressions)とSHACL(Shapes Constraint Language)があります。筆者はShExとSHACLの違いでこれらの比較を行い、RDFSとSHACLの使い分け:rangeとpropertyShapeの関係を理解するでより実践的な使い分けを解説しました。

IIIF Presentation APIとメタデータ

IIIF Presentation APIは、デジタル化された資料の構造とメタデータをJSON-LD形式で記述するための標準です。マニフェストのmetadataプロパティとして任意のメタデータを記述できます。

筆者はOmeka SのIIIF Serverモジュールを活用して、IIIFマニフェストを自動生成する方法を多数紹介しています。Omeka Sを用いて、IIIF Presentation API v3のマニフェストファイルを作成するでは、v3マニフェストの生成手順を解説しました。また、IIIFマニフェストの出力内容についてはOmeka S IIIF ServerのIIIFマニフェスト(version 2)の出力内容で詳しく確認しています。

EADとアーカイブズ記述

EAD(Encoded Archival Description)は、文書館や図書館の特別コレクションにおける「検索手段(finding aid)」をデジタル化するためのXMLスキーマです。アーカイブズ資料の階層的な構造を忠実に表現できます。

筆者はArchivematicaにおけるEADの組み込みについても検証を行っています。Archivematica における非DCメタデータの登録検証 ── source-metadata.csv を使ったEADの組み込みでは、source-metadata.csvを使った非標準メタデータの登録方法を解説しました。

メタデータ設計の実践的指針

デジタルアーカイブのメタデータ設計において、以下の指針が実務上重要です。

既存の標準を活用する: 独自スキーマの策定は避け、Dublin Core、Schema.org、IIIF等の標準を最大限活用します。Omeka Sのように、複数の語彙を組み合わせて使えるプラットフォームを選ぶことが重要です。

相互運用性を意識する: ジャパンサーチ等のアグリゲーション基盤への連携を想定し、マッピング可能なメタデータ設計を行います。筆者はLinked Dataを使ったデータ記述の応用例で、相互運用を意識したデータ記述の方法を紹介しています。

統制語彙を活用する: Omeka SのCustom Vocabモジュール(【Omeka S モジュール紹介】Custom Vocab)や、Data Type RDFモジュール(【Omeka S モジュール紹介】Data Type RDF)を活用して、データの一貫性と検索精度を向上させます。

永続的識別子を付与する: 各リソースにDOI、Handle、ARKなどの永続的識別子を付与します。筆者はw3id.orgを用いた永続識別子の取得とSnorqlへのリダイレクトで、w3id.orgを使った永続識別子の取得方法を紹介しました。

まとめ

本章では、デジタルアーカイブにおけるメタデータの基礎概念と主要な標準規格を概観しました。Dublin Coreの汎用的な記述からTEI/XMLの詳細な構造化記述、RDF/JSON-LDによるLinked Data対応まで、目的に応じた標準が存在します。Omeka Sのようなプラットフォームを活用することで、これらの標準を効率的に管理・運用できます。

次章では、メタデータが付与される対象となるデジタルデータそのものの作成、すなわちデジタル化の実践について学びます。

関連記事