写本・資料記述 — msDescによる物理的・歴史的記述 | デジタルアーカイブシステムの技術ブログ

写本記述の重要性

写本（manuscript）や古文書の研究において、テキストの内容だけでなく、その物理的な形態、来歴、保存状態などの情報は極めて重要です。写本がどのような材料で作られ、いつ・どこで・誰によって書かれたのか、どのような経路で現在の所蔵機関に至ったのかといった情報は、テキストの理解と評価に不可欠な文脈を提供します。

TEIは msdescription モジュールにおいて、写本や古文書の詳細な記述を行うための要素を提供しています。中心となるのが <msDesc>（manuscript description）要素です。

<msDesc> は元々、西洋の中世写本の記述を念頭に設計されましたが、東アジアの巻子本・冊子本、碑文、パピルス、近代の手稿など、幅広い資料タイプの記述に適用できるようになっています。

筆者は校異源氏物語プロジェクトにおいて、複数の写本の識別情報を<msDesc>内の<msIdentifier>で管理しています。校異源氏物語・本文テキストデータリポジトリで公開しているTEI/XMLを一部更新しました。では、<listWit>内で各写本を<witness>要素と<msDesc>の組み合わせで記述する実例を示しています。

msDescの基本構造

<msDesc> は以下の主要な子要素で構成されます。

要素	必須/任意	内容
`<msIdentifier>`	必須	写本の識別情報（所蔵機関、請求記号等）
`<head>`	任意	写本記述の見出し
`<msContents>`	任意	写本に含まれるテキストの内容
`<physDesc>`	任意	物理的記述（材料、寸法、書写等）
`<history>`	任意	来歴（制作、由来、入手経緯）
`<additional>`	任意	付加情報（管理情報、参考文献、デジタル画像等）
`<msPart>`	任意	合綴本の各部分の記述

msIdentifier（識別情報）

<msIdentifier> は写本を一意に識別するための情報を記述します。

<msIdentifier>
  <country>日本</country>
  <settlement>東京</settlement>
  <institution>国立国会図書館</institution>
  <repository>古典籍資料室</repository>
  <collection>亀田文庫</collection>
  <idno>WA7-123</idno>
  <altIdentifier type="former">
    <idno>旧蔵番号456</idno>
  </altIdentifier>
  <msName>大福光寺本方丈記</msName>
</msIdentifier>

msContents（内容記述）

<msContents> は、写本に含まれるテキストの知的内容を記述します。

<msContents>
  <summary>方丈記の写本。鎌倉時代前期の書写と推定される。</summary>
  <msItem n="1">
    <locus from="1r" to="15v">1r-15v</locus>
    <author>
      <persName ref="https://viaf.org/viaf/90710895">鴨長明</persName>
    </author>
    <title>方丈記</title>
    <incipit>ゆく河の流は絶ずして</incipit>
    <explicit>筆をとどめてこれをしるす</explicit>
    <textLang mainLang="ja">日本語（和漢混淆文）</textLang>
  </msItem>
</msContents>

physDesc（物理的記述）

<physDesc> は写本の物理的な特徴を記述します。

<physDesc>
  <objectDesc form="codex">
    <supportDesc material="paper">
      <support>
        <material>楮紙</material>
      </support>
      <extent>
        15葉
        <dimensions type="leaf" unit="mm">
          <height>270</height>
          <width>195</width>
        </dimensions>
      </extent>
      <foliation>右上に墨書で丁付あり</foliation>
      <condition>
        <p>虫損あり。一部に水濡れの痕跡。</p>
      </condition>
    </supportDesc>
    <layoutDesc>
      <layout columns="1" writtenLines="12">
        <p>毎半葉12行。界線あり。</p>
      </layout>
    </layoutDesc>
  </objectDesc>

  <handDesc hands="1">
    <handNote xml:id="hand1" scope="sole" script="cursive">
      <p>草体。鎌倉時代前期の筆跡と推定される。</p>
    </handNote>
  </handDesc>

  <decoDesc>
    <decoNote type="border">
      <p>料紙に金銀の砂子を散らした装飾料紙を使用。</p>
    </decoNote>
  </decoDesc>

  <bindingDesc>
    <binding>
      <p>袋綴。表紙は後補。</p>
    </binding>
  </bindingDesc>
</physDesc>

objectDesc（物体記述）

<objectDesc> の form 属性で資料の形態を指定します。

form値	説明
`codex`	冊子本
`scroll`	巻子本
`sheet`	一枚もの
`album`	帖装

history（来歴）

<history> は写本の来歴を時系列で記述します。

<history>
  <origin>
    <origDate notBefore="1200" notAfter="1250">鎌倉時代前期</origDate>
    <origPlace>京都</origPlace>
  </origin>
  <provenance>
    <p>江戸時代には<persName>松平定信</persName>の蔵書であったことが
    蔵書印から確認される。</p>
  </provenance>
  <acquisition>
    <p><date when="1950">1950年</date>、国立国会図書館が一括購入。</p>
  </acquisition>
</history>

additional（付加情報）

<additional> には、管理情報、参考文献、デジタル画像へのリンクなどを記述します。

<additional>
  <adminInfo>
    <recordHist>
      <source>
        <p>本記述は2024年3月の現物調査に基づく。</p>
      </source>
    </recordHist>
    <availability>
      <p>事前申請による閲覧可。</p>
    </availability>
  </adminInfo>

  <surrogates>
    <bibl>
      <title>国立国会図書館デジタルコレクション</title>
      <ref target="https://dl.ndl.go.jp/info:ndljp/pid/12345678">
        デジタル画像
      </ref>
    </bibl>
  </surrogates>
</additional>

OCRによるテキスト生成と写本記述の連携

古典籍のデジタル化では、OCR（光学文字認識）によるテキスト生成が重要な役割を果たします。OCRの結果をTEI/XML形式で記録し、写本記述と組み合わせることで、画像・テキスト・メタデータを一体的に管理できます。

筆者はOCRを活用したTEI/XML作成について多くの実践を行ってきました。

NDL古典籍OCR-Liteを用いて、IIIFマニフェストファイルからTEI/XMLファイルを作成するでは、NDL古典籍OCR-Liteモデルを使って古典籍画像からTEI/XMLを自動生成する方法を紹介しています。IIIFマニフェストから画像を取得し、OCR処理の結果をTEI/XML形式で出力するフローです。

画像ファイルに対してGoogle Cloud Visionを適用して、IIIFマニフェストおよびTEI/XMLファイルを作成するでは、Google Cloud Vision APIを使った別のアプローチを紹介しています。

Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリの試作では、Google Cloud Vision APIとGakuNin RDMを組み合わせたアプリケーションを試作しています。

さらに、IIIFマニフェストファイルからOCR結果を含むTEI_XMLファイルを作成するプログラムも参考になります。

前近代日本資料のデジタルアーカイブ

日本の古典籍を含むデジタルアーカイブの実践例として、筆者は「前近代日本-アジア関係資料デジタルアーカイブ」のビューアを試すで、TEIを活用したデジタルアーカイブビューアについて紹介しています。

また、Omeka S XML Viewerモジュールの使い方では、デジタルアーカイブプラットフォームOmeka SでTEI/XMLを表示するためのモジュールについて解説しています。

ODD/スキーマによる写本記述の制約

プロジェクト固有の写本記述ルールを定める場合、ODDを使ってスキーマをカスタマイズすることが有効です。筆者はTEI ODDファイルのカスタマイゼーション：NDL古典籍OCRの事例で、NDL古典籍OCRの出力に対応したODDのカスタマイズ事例を紹介しています。

また、Romaを使ってプロジェクトに応じたタグを限定し、解説を作成するでは、<msDesc>関連のタグをプロジェクトに応じて取捨選択する方法を解説しています。

まとめ

本章では、TEIの msdescription モジュールが提供する <msDesc> 要素を中心に、写本・資料の構造的な記述方法を学びました。<msIdentifier> による識別情報、<msContents> による内容記述、<physDesc> による物理的記述、<history> による来歴、<additional> による付加情報という5つの主要セクションを通じて、写本のあらゆる側面を体系的に記録できます。

OCRによるテキスト生成と写本記述を組み合わせることで、古典籍のデジタル化ワークフロー全体をTEI/XMLで統合的に管理できます。

次章では、ファクシミリ画像とテキストの対応関係の記述、およびIIIFとの連携について学びます。

写本記述の重要性#

msDescの基本構造#

msIdentifier（識別情報）#

msContents（内容記述）#

physDesc（物理的記述）#

objectDesc（物体記述）#

history（来歴）#

additional（付加情報）#

OCRによるテキスト生成と写本記述の連携#

前近代日本資料のデジタルアーカイブ#

ODD/スキーマによる写本記述の制約#

まとめ#

関連記事#