はじめに
チベット語写本のデジタル化は、デジタル人文学における重要な課題の一つです。貴重な仏教経典や歴史文書が世界中の図書館に保管されていますが、その多くはまだテキストデータ化されていません。手作業での文字起こしには膨大な時間とコストがかかり、専門知識を持つ研究者も限られています。
本記事では、BDRC Tibetan OCR を紹介します。このツールは、Buddhist Digital Resource Center (BDRC) によって開発されたオープンソースのチベット語OCRシステムです。
また、チベット語写本カンギュール114点 をデジタル化するプロジェクトでの実装事例も紹介します。
BDRC Tibetan OCRとは
BDRC Tibetan OCR は、チベット語の画像からテキストを自動抽出する無料のオープンソースツールです。
主要な特徴
1. デスクトップアプリケーション
Windows、macOS(Intel/M1,M2)で動作するGUIアプリケーションです。
インストール方法:
- リリースページから各OS用のZIPファイルをダウンロード
- 解凍して実行ファイルを起動するだけ
2. 複数の出力形式
- プレーンテキスト : 抽出されたUnicodeチベット文字
- PageXML : 座標情報付きXML(Transkribusと互換)
- Wylie : ローマ字転写形式
3. 画像補正機能
- 歪み補正(Dewarping) : ページの湾曲を補正
- 回転補正 : 自動的にページの傾きを検出・補正
- 行検出 : 行分割機能
4. バッチ処理対応
- 複数の画像ファイルを一括処理
- PDFファイルからの直接OCR
- IIIF(International Image Interoperability Framework)マニフェストからの自動取得・処理
4つの専門OCRモデル
BDRC Tibetan OCRの特徴の一つは、書体や資料の種類に応じて最適化された4つの専門モデル を提供している点です。
1. ウチェン(Uchen)モデル - 現代印刷用
ウチェンは「正書体」を意味し、チベット語で最も標準的な書体です。現代の印刷物やデジタルフォントで使用されます。
2. ウメ(Ume)モデル - 手書き写本用
ウメは「頭無し文字」を意味し、仏教写本で広く使用された書体です。
3. 木版印刷(Woodblock)モデル - 古典版画用
4. その他の専門モデル
- キエンツェ・ワンポデータセット : 現代活字版から約1万3000行のサンプルで訓練
- 敦煌写本モデル : 8世紀まで遡る古文書用の特殊モデル
モデルの学習データ
これらのモデルは、以下のソースから収集されたデータセットで訓練されています:
- BDRC - Buddhist Digital Resource Center
- ALL - Asian Legacy Library
- Adarsha
- NorbuKetaka
学習済みモデルとデータセットの一部は、HuggingFaceのBDRCアカウントとOpenPechaでオープンアクセスとして公開されています。
実装事例:チベット語写本カンギュールのデジタル化プロジェクト
チベット語写本カンギュール114点 をデジタル化するプロジェクトでの実装例を紹介します。
プロジェクト概要
- 対象資料 : チベット語写本カンギュール 114点
- 処理方式 : IIIF Image APIからの自動画像取得 + バッチOCR処理
- 出力形式 : TEI/XML形式(Text Encoding Initiative P5準拠)
- 公開 : Webビューアで画像とテキストを並列表示
技術構成
1. IIIF連携による効率的な画像取得
IIIF(International Image Interoperability Framework)規格に準拠した画像サーバーから、メタデータと高解像度画像を自動的に取得します。
2. バッチOCR処理
主要なパラメータ:
k_factor: 行検出の感度調整(木版印刷では2.5を使用)bbox_tolerance: 文字のバウンディングボックス許容値(デフォルト: 4.0)merge_lines: 分割された行を自動的にマージuse_tps: TPS(Thin Plate Spline)変換による歪み補正
3. TEI/XML出力
TEI/XMLの構造:
処理フロー
使用方法
単一画像のOCR処理
IIIFマニフェストからのバッチ処理
主要なオプション:
--model: 使用するOCRモデル(Modern, Ume_Druma, Ume_Petsuk, Woodblock, Woodblock-Stacks)--format: 出力形式(text, xml, json, all)--encoding: 文字エンコーディング(unicode, wylie)--dewarp: 歪み補正を適用--bbox-tolerance: バウンディングボックスの許容値(デフォルト: 4.0)
プロジェクトの成果
- 処理済み文書数 : 33件(進行中)
- TEI/XML出力 : 各写本に対して座標情報付きXMLを生成
- IIIF連携 : 画像とテキストを統合したWebビューアを実現
- DTS Collections API : 標準化されたメタデータAPIを提供
技術的な詳細
アーキテクチャ
BDRC Tibetan OCRは、2つの主要なニューラルネットワークで構成されています:
行検出モデル(PhotiLines)
- セマンティックセグメンテーションによる行領域の検出
- パッチサイズ: 512×512
- ONNX形式で提供
OCRモデル(Easter2アーキテクチャ)
- CRNN(Convolutional Recurrent Neural Network)ベース
- 入力: 可変幅×固定高さの画像
- 出力: Unicode文字列またはWylie転写
- ONNX Runtime で高速推論
プログラムでの利用
Pythonでの基本的な使い方
0
出力形式の詳細
1. プレーンテキスト (.txt)
1
2. PageXML (.xml)
2
3. JSONL (.jsonl)
3
パフォーマンス
木版印刷(Woodblock)モデルでの実測値(MacBook Pro M1):
- 処理速度 : 約1ページ/15-20秒(7360×4912ピクセルの高解像度画像)
- 行検出精度 : 95%以上
- 文字認識精度 : 90-95%(資料の保存状態により変動)
- メモリ使用量 : 約2GB
関連ツールとの比較
Tesseract OCR
Googleが開発するオープンソースOCRエンジン。
- サポート言語 : 100以上の言語に対応(チベット語を含む)
- 精度 : チベット語の認識精度は低め(特に古典写本)
- 用途 : 一般的な文書のOCRに適している
Transkribus
READ-COOPが開発する手書き文書認識プラットフォーム。
- 特徴 : HTR(Handwritten Text Recognition)に特化
- 精度 : カスタムモデルの訓練が可能
- 互換性 : BDRC Tibetan OCRはPageXML形式でTranskribusと互換
- 制限 : 無料版は月間500クレジットまで
BDRC Tibetan OCRの特徴
- チベット語に特化した4つの専門モデルを提供
- 完全無料・オープンソース
- 木版印刷や古典写本に対応
- IIIF連携によるワークフロー対応
- ローカル環境で動作
まとめ
主な特徴
- 専門モデル : 書体・資料別に最適化された4つのモデルを提供
- 完全無料 : オープンソースで制限なく利用可能
- アプリケーション : GUIアプリとCLIツールの両方を提供
- 標準規格準拠 : IIIF、TEI/XML、PageXMLなど国際標準に対応
- ローカル処理 : ローカル環境で処理が完結
適用可能なプロジェクト
- デジタル図書館の構築
- 仏教経典のテキスト化
- 研究用コーパスの作成
- 歴史文書のアーカイブ化
- 教育用デジタル教材の開発
今後の可能性
このようなプロジェクトでは、以下のような機能拡張が考えられます:
- 自動校正機能 : OCR結果の後処理による精度向上
- 並行テキスト表示 : 複数版の比較表示
- 全文検索機能 : OCRテキストを対象とした検索
- アノテーション機能 : 研究者によるコメント・注釈の付与
リソース
公式リンク
- GitHubリポジトリ : https://github.com/buda-base/tibetan-ocr-app
- リリースページ : https://github.com/buda-base/tibetan-ocr-app/releases
- 学習済みモデル(HuggingFace) : https://huggingface.co/BDRC
- トレーニングコード : https://github.com/buda-base/tibetan-ocr-training
参考文献
- Buddhist Digital Resource Center: https://www.bdrc.io/
- TEI (Text Encoding Initiative): https://tei-c.org/
- IIIF (International Image Interoperability Framework): https://iiif.io/
- DTS (Distributed Text Services): https://distributed-text-services.github.io/
謝辞
BDRC Tibetan OCRは、Buddhist Digital Resource Center (BDRC) によって開発されたオープンソースツールです。ツールの開発者であるEric Werner氏に感謝いたします。
公開日 : 2025-11-13