デジタル化の実践

デジタル化の計画

デジタル化プロジェクトを成功させるためには、事前の計画が不可欠です。対象資料の選定、品質要件の定義、ワークフローの設計、予算と人員の見積もりなど、多くの要素を検討する必要があります。

筆者の経験では、デジタル化の「目的」を明確にすることが最も重要です。単に画像をスキャンするだけなのか、OCRによる全文検索を実現するのか、TEI/XMLによる構造化テキストを作成するのか。目的によって、求められる品質や工程が大きく異なります。

画像のデジタル化とIIIF配信

画像フォーマットの選定

デジタルアーカイブにおける画像フォーマットの選択は、品質、ファイルサイズ、互換性、長期保存性のバランスを考慮して行います。マスター画像としてはTIFF（非圧縮またはLZW圧縮）が広く採用されています。

IIIFイメージサーバでの配信においては、JPEG 2000やピラミッドTIFFが効率的です。筆者はmdx.jpのオブジェクトストレージとCantaloupe Image Serverを使ってIIIF画像を配信するで、Cantaloupe Image Serverを用いたIIIF画像配信の方法を紹介しました。オブジェクトストレージに格納した画像を、Cantaloupeを経由してIIIF Image APIで配信する構成です。

# VIPSを用いたピラミッドTIFFの生成
vips tiffsave input.tif output.tif --tile --pyramid --compression jpeg --Q 90 --tile-width 256 --tile-height 256

Deep Zoom画像からの復元

既存のタイル画像（Deep Zoom形式など）からマスター画像を復元する必要が生じる場合もあります。筆者はDeep Zoom画像を完全復元：タイル画像からBigTIFFへの変換技術で、タイル画像から元の高解像度画像を復元する手法を紹介しました。

Omeka Sでの画像管理

Omeka Sにおける画像管理では、ファイルのアップロードサイズ制限に注意が必要です。Omeka Sにサイズが大きいファイルをアップロードするで対処法を解説しています。また、大量の画像を一括で登録する場合は、File Sideloadモジュールが便利です。File Sideload: Omeka Sで画像を一括アップロードするで使い方を紹介しました。

Pythonを用いたプログラム的な画像登録については、Pythonを使ってOmeka Sにメディアをアップロードする方法やOmeka Sへの画像一括登録用プログラムも参考になります。

OCR / テキスト認識

NDL古典籍OCR

国立国会図書館が開発・公開したNDL古典籍OCRは、日本語の古典籍に対する高い認識精度を実現しています。筆者はNDL古典籍OCR-Liteを活用して、IIIFマニフェストファイルからTEI/XMLファイルを自動生成するワークフローを構築しました。

NDL古典籍OCR-Liteを用いて、IIIFマニフェストファイルからTEI/XMLファイルを作成するでは、OCR結果をTEI/XMLの形式で保存する方法を紹介しています。さらに、NDL古典籍OCR-Liteを用いたアノテーション付きIIIFマニフェストファイルとTEI/XMLファイルの作成では、アノテーション情報を含むマニフェストの生成手法を解説しました。

「NDL OCR x IIIF」アプリにTEI/XML形式でダウンロードする機能を追加しました。では、OCR結果をTEI/XML形式でエクスポートする機能の開発について紹介しています。

Google Cloud Vision APIの活用

クラウドベースのOCRサービスも有効な選択肢です。画像ファイルに対してGoogle Cloud Visionを適用して、IIIFマニフェストおよびTEI/XMLファイルを作成するでは、Google Cloud Vision APIを使ったOCRパイプラインを紹介しました。

ALTO XMLとOCR結果の活用

OCR結果の出力形式として、ALTO XML（Analyzed Layout and Text Object）が広く使われています。ALTOは文字の座標情報を含むため、IIIF Content Search APIと連携して、検索結果の位置を画像上にハイライト表示することが可能です。

筆者はALTO (Analyzed Layout and Text Object) XMLについてでALTO形式の詳細を解説し、Mirador3プラグイン開発: Text Overlay pluginで縦書き対応を行うで、Miradorビューア上でのOCRテキストオーバーレイ表示を実現しました。

Omeka SでのOCR

Omeka Sには、PDFファイルに対してOCRを実行するモジュールもあります。【Omeka S モジュール紹介】PDFファイルに対してOCRを行うモジュール「Extract Ocr」で、その使い方を紹介しました。

TEI/XMLによるテキストのデジタル化

テキストの構造化

TEI/XMLは、テキスト資料を構造化するための強力なフレームワークです。単にテキストを電子化するだけでなく、段落、見出し、注釈、校異、人名、地名などの情報を構造化できます。

筆者はTEI/XMLファイルの作成に関して多くのツールを検証しています。ブラウザベースのエディタであるLEAF Writerについては、LEAF-Writerをローカル環境で動かすでローカル環境での構築方法を解説し、LEAF Writer：日本語UIの追加で日本語対応の取り組みを紹介しました。

ファクシミリ（画像とテキストの対応づけ）

TEI/XMLの<facsimile>要素を使うことで、IIIF画像とテキストの対応づけが可能になります。筆者はIIIFマニフェストファイルからTEIのfacsimile要素を作成するプログラムを作成しました。で、IIIFマニフェストからTEI facsimile要素を自動生成するプログラムを公開しました。また、IIIF Curation ListをTEIのfacsimile要素に変換するでは、IIIF Curation Listからの変換も紹介しています。

多角形アノテーションをTEI/XMLで表現する方法については、IIIFの多角形アノテーションをTEI/XMLで表現する一例で具体例を示しました。

TEI/XMLの変換と出力

TEI/XMLファイルから各種フォーマットへの変換も重要なワークフローです。XSLTを使った変換についてはVSCodeとXSLTを用いたTEI/XMLのリアルタイムプレビューで、PDFへの変換についてはTEI/XMLファイルを縦書きPDFに変換する方法の1例で紹介しています。また、EPUBへの変換はPythonを用いてTEI/XMLファイルをEPUBに変換するで解説しました。

3Dスキャン

立体物のデジタル化には、3Dスキャン技術が用いられます。Omeka Sでは3Dモデルの公開も可能です。筆者はOmeka Sで3Dモデルを公開するで、3DモデルをOmeka S上で公開する方法を紹介しました。また、Omeka SのModel Viewerモジュールを試すでは、3Dモデルビューアモジュールの導入手順を解説しています。

動画のデジタル化

動画資料のデジタル化と公開も、デジタルアーカイブの重要な要素です。筆者はOmeka Sで動画を公開するで、IIIF対応の動画公開方法を紹介しました。動画に対するテキスト情報の付与として、VTTファイルからTEI/XMLを作成する方法もvttファイルからTEI/XMLを作成するで解説しています。

まとめ

本章では、デジタル化の計画から実施までの実践的な知識を概観しました。画像のデジタル化とIIIF配信、OCRによるテキスト抽出、TEI/XMLによるテキスト構造化、3Dモデルや動画の公開など、多様なデジタル化手法があります。いずれの場合も、目的を明確にし、適切なワークフローを設計することが重要です。

次章では、デジタル化されたデータの長期保存について、Archivematicaを中心に学びます。

デジタル化の計画#

画像のデジタル化とIIIF配信#

画像フォーマットの選定#

Deep Zoom画像からの復元#

Omeka Sでの画像管理#

OCR / テキスト認識#

NDL古典籍OCR#

Google Cloud Vision APIの活用#

ALTO XMLとOCR結果の活用#

Omeka SでのOCR#

TEI/XMLによるテキストのデジタル化#

テキストの構造化#

ファクシミリ（画像とテキストの対応づけ）#

TEI/XMLの変換と出力#

3Dスキャン#

動画のデジタル化#

まとめ#

関連記事#