はじめに | デジタルアーカイブシステムの技術ブログ

本書の目的

TEI（Text Encoding Initiative）は、人文学のテキスト資料を構造的に記述するための国際標準ガイドラインです。古典文学、歴史文書、書簡、碑文、辞書など、あらゆるテキスト資料をXMLベースのマークアップ言語でエンコーディングし、研究・教育・公開に活用するための枠組みを提供しています。世界中の大学、図書館、アーカイブ機関がTEIを採用しており、デジタルヒューマニティーズ（DH）の基盤技術として広く普及しています。

しかし、TEIに関する体系的な日本語の技術書はまだ十分ではありません。TEIガイドラインは英語で書かれた膨大なドキュメントであり、初学者がどこから手をつければよいのか迷うことも少なくありません。XML自体に馴染みのない人文学研究者にとっては、技術的なハードルも無視できません。

筆者はこれまで、TEIに関連する120本以上の技術記事を執筆してきました。TEI/XMLの基本的な作成方法から、XSLT変換、IIIFとの連携、LEAF WriterやOxygen XML Editorなどの編集環境、TEI PublisherやCETEIceanによる公開手法、そして校異源氏物語テキストDBの構築といった実践プロジェクトまで、幅広いトピックをカバーしています。本書は、それらの記事で蓄積した知見を体系的に整理し、TEIを「知っている」状態から「使える」状態へとステップアップするための実践入門ガイドです。

対象読者

本書は、以下のような方々を主な対象読者として想定しています。

デジタルヒューマニティーズ研究者

文学、歴史学、言語学などの人文学分野で、テキスト資料のデジタル化・構造化に取り組む方。テキストの批判的校訂（critical edition）をデジタルで行いたい方、コーパスを構築して言語分析を行いたい方に、TEIの実践的な活用法を示します。筆者が取り組んできた校異源氏物語のデジタル化プロジェクトは、その具体的な事例です。

図書館・文書館の専門職員

所蔵するテキスト資料のデジタルアーカイブ化を検討している方。TEIによるメタデータの記述や、写本・古文書の構造的な記述方法を理解することで、より豊かなデジタルコレクションの構築が可能になります。筆者はGitHubでのTEI/XML公開手順についても記事を執筆しており、実際の公開フローもカバーしています。

XMLエンジニア・開発者

TEI/XMLの処理・変換・公開に関わるシステム開発に携わる方。TEIの構造を理解することで、XSLTによる変換処理やTEI Publisherなどの公開ツールの活用が効率的になります。筆者はNode.jsやPythonによるXML処理、Next.jsやNuxt3を使ったTEIビューアの開発など、開発者向けの実践的な記事も多数執筆しています。

デジタルヒューマニティーズを学ぶ学生

情報学、図書館情報学、人文情報学などを学ぶ学生の方。TEIの基礎を体系的に学ぶことで、卒業研究やDHプロジェクトに活用できるようになります。

本書で学べること

本書を読み終えた時点で、読者は以下のことができるようになります。

TEIの全体像を把握し、ガイドラインの構造と役割を説明できる
XMLの基礎文法を理解し、well-formedなXML文書を作成できる
TEIヘッダー（teiHeader）を適切に設計し、書誌情報やエンコーディング方針を記述できる
テキストの構造（章・段落・詩行・注釈など）をTEI要素で適切にマークアップできる
人名・地名・組織名などの固有表現をマークアップし、外部リソースと連携できる
校異情報（critical apparatus）を記述し、複数の写本間の異同を構造的に記録できる
写本・資料の物理的記述（msDesc）を作成できる
ファクシミリ画像とテキストの対応関係を記述し、IIIFと連携できる
oXygen XML EditorやLEAF Writer、CETEIceanなどの主要ツールを活用できる
TEIドキュメントをWeb上で公開するための方法を選択・実装できる

本書の構成

本書は全12章で構成されており、基礎から応用へと段階的に進む構成になっています。各章には、筆者が執筆した関連記事へのリンクを掲載しています。本書で概要を把握したうえで、関連記事でより詳細な手順や実装例を参照することで、理解を深めることができます。

第I部: 基礎編（第1章〜第3章）

TEIとは何か、その歴史と概念から始め、TEIの基盤となるXMLの基礎を学びます。

第1章「TEIとは何か」: TEIの概要、歴史、TEIコンソーシアム、ガイドラインの構造
第2章「XMLの基礎」: XML構文、要素・属性、名前空間、well-formed/valid、スキーマ、XSLT

第II部: TEIドキュメント設計編（第3章〜第5章）

TEIドキュメントの骨格であるヘッダーの設計と、テキスト本体の構造化を学びます。

第3章「TEIヘッダーの構造」: teiHeaderの各構成要素と記述方法
第4章「テキスト構造のマークアップ」: body, div, p, lg, l, head, note等の活用
第5章「固有表現のマークアップ」: persName, placeName, orgName, dateの記述とLinked Data連携

第III部: 高度なマークアップ編（第6章〜第8章）

校異情報、写本記述、画像連携など、専門的なマークアップ手法を習得します。

第6章「校異情報とテキスト批評」: app, lem, rdgによる校異装置の記述
第7章「写本・資料記述」: msDescを用いた写本の物理的・歴史的記述
第8章「ファクシミリと画像連携」: facsimile, surface, zoneとIIIF連携

第IV部: ツールと公開編（第9章〜第11章）

TEIドキュメントの作成・変換・公開に使えるツールと、Web公開の実践方法を学びます。

第9章「TEI関連ツール」: oXygen XML Editor, LEAF Writer, CETEIcean, Roma, CATMA等
第10章「TEIドキュメントの公開」: TEI Publisher、CETEIcean、DTS、PDF変換
第11章「リソース集」: 筆者の関連記事をトピック別に整理した包括リスト

前提知識

本書を効果的に読み進めるために、以下の基礎知識があることが望ましいですが、必須ではありません。

HTMLの基礎: タグによるマークアップの概念を理解していること。XMLの章で基礎から解説しますので、HTMLの経験がなくても読み進められます
テキストエディタの基本操作: テキストファイルの作成・編集ができること
人文学資料への関心: 古典テキスト、写本、歴史文書などの資料に対する基本的な理解

プログラミングやXMLの経験は前提としていません。第2章でXMLの基礎を丁寧に解説しますので、初めての方でも安心して取り組めます。

本書の読み方

各章は基本的に独立して読めるように構成していますが、TEIが初めての方は第1章から順に読み進めることをお勧めします。特に第2章のXMLの基礎は、以降のすべての章の前提となりますので、XMLに馴染みのない方は必ず目を通してください。

各章では、概念の説明に加えて、具体的なTEI/XMLのコード例を豊富に掲載しています。また、各章の末尾には「関連記事」セクションを設けており、筆者がこれまでに執筆した記事のうち、その章のトピックに関連するものをリストアップしています。本書で概要をつかんだあと、関連記事で実際の手順やコードを確認することで、実践的な理解が深まるはずです。

ぜひoXygen XML EditorやVisual Studio Codeなどのエディタを使い、実際にTEIドキュメントを作成しながら読み進めてください。手を動かすことで、理解がぐっと深まります。

なお、本書で扱うTEIガイドラインのバージョンはTEI P5（現行バージョン）を基準としています。

それでは、TEIの世界を一緒に探求していきましょう。

本書の目的#

対象読者#

本書で学べること#

本書の構成#

前提知識#

本書の読み方#

関連記事#