概要

Excelで作成したデータから、TEI/XMLを作成するフローの一例を作成しました。

以下のようなTEI/XMLファイルが出力されます。pbタグを使ったページ区切り、lbタグを使った行IDの指定、choice・orig・regタグを使った複数表記、noteタグを使った注釈、およびIIIF画像との関連づけ、などに対応します。

<<?T<<<xEt<t<f<<TmIef<<<teb<<tas<</s<fEliit</p</s<fexopa<<becul[/zsul[saIxHlittuapoasiitdbbls<aoxsra2loura2luc>vmeetiibbuublH>y>bec<sbdtifb2anrfb3arselaDlttl/bruee>cgho<rce>y>mae]befae]bfirndeelli>lcrDaox>ornoerhg>icleacleamssesSeeciecedrmiionrgeo>le>llce>lcii=rct/SacDeserlcgtoi>gie>re>elo">>m>ttaeDcre:e>etg>csx>s>enhtmitse>>si>e>eso=o>=t>toicspdc>>ou"u"t>no>c==our1r1pSn>""rrc1c.:tS#prce2e0/mtpaee=6="/tmags="""w>tgep"hhew>e_=htltnw_2"ttrtc.22#tpypot2-pps=sde"bas:":ii/-g:1/n->1e3/gc"_d1d=./2dl9l"o>2l.".ur-.nntgbndudf/-dlll-n1l.x.8s-.g=g"/2go"o?10o.1.>.".j0j0jp4p"tp4/>ya"apappepiui=il/"iyiii=iii"i"if8f>f9/35334"443337x776m668l886:66i/cdcma=aan"nnvpviaaafsgse/e/s2_2t223."2"j-sxbxom-mnl1l":-:>i2id0d="="/"p>paaggee__2223"">>

上記のTEI/XMLデータの可視化の一例を以下に示します。画像、テキスト(original)、テキスト(Regularization)、注釈を同一画面上に表示しています。

なお注意点として、今回は校異源氏物語のテキストを用いていますが、校異情報を記述する際にはapp要素のほうが適切です。あくまでフローを説明するためのサンプルデータとしてご理解ください。

Excel

作成するExcelのサンプルデータは以下です。image, text, notesの3つのシートを持ちます。それぞれについて説明します。

https://github.com/nakamura196/tei_excel_tools/blob/main/demo/data/sample.xlsx?raw=true

「image」シート

IIIFマニフェストファイルに関する情報を記述します。page_idは一意となるIDを新規に与えてください。

manifestcanvaspage_idlabel
https://dl.ndl.go.jp/api/iiif/3437686/manifest.jsonhttps://dl.ndl.go.jp/api/iiif/3437686/canvas/22page_22[22]
https://dl.ndl.go.jp/api/iiif/3437686/manifest.jsonhttps://dl.ndl.go.jp/api/iiif/3437686/canvas/23page_23[23]

「text」シート

先に指定したpage_idに加えて、line_idを新たに追加します。またtext1にchoice > origのテキスト、text2にchoice > regのテキストを入力します。

page_idline_idtext1text2
page_22page_22-b-1いつれの御時にか女御更衣あまたさふらひ給けるなかにいとやむことなきゝはいつれの御時にか女御更衣あまたさふらひたまふなかにいとやむことなきゝは

上記の例では、「給ける」と「たまふ」に違いがあります。

「notes」シート

注釈の情報を記述します。

これまで作成したpage_idline_idに加えて、note_idを新たに追加します。さらにposには、当該行の何文字目に注釈を付与するかを指定します。typesubtypeは任意です。textには注釈の内容を与えます。imageは任意で、当該注釈のIIIF画像URLを与えます。このURLの作成方法については後述します。

note_idpage_idline_idpostypesubtypetextimage
page_22-b-1-20page_22page_22-b-122校異給けるーたまふ河https://dl.ndl.go.jp/api/iiif/3437686/R0000022/1044,895,82,424/full/0/default.jpg

TEI/XMLへの変換

Excelをアップロードして、TEI/XMLファイルをダウンロードするノートブックは以下です。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/tei_excel_tools.ipynb

注釈のIIIF画像URLの取得

前述した注釈のIIIF画像URLの取得方法です。人文学オープンデータ共同利用センターが作成しているIIIF Curation Viewerを用います。

以下のURLのような形で、manifestposを指定して、注釈が掲載された画像を開きます。

http://codh.rois.ac.jp/software/iiif-curation-viewer/demo/?manifest=https://dl.ndl.go.jp/api/iiif/3437686/manifest.json&pos=22&lang=ja

次に、下図の赤枠で示したボタンをクリックして、注釈箇所を選択します。

その後、注釈部分をクリックすると、URLが表示されます。

このURLをExcelに貼り付けます。

まとめ

ユースケースに特化したTEI/XMLファイルの作成方法ですが、参考になりましたら幸いです。