BDRC Tibetan OCR：チベット語OCRツールの紹介と実装事例

はじめに

チベット語写本のデジタル化は、デジタル人文学における重要な課題の一つです。貴重な仏教経典や歴史文書が世界中の図書館に保管されていますが、その多くはまだテキストデータ化されていません。手作業での文字起こしには膨大な時間とコストがかかり、専門知識を持つ研究者も限られています。

本記事では、BDRC Tibetan OCR を紹介します。このツールは、Buddhist Digital Resource Center (BDRC) によって開発されたオープンソースのチベット語OCRシステムです。

また、チベット語写本カンギュール114点 をデジタル化するプロジェクトでの実装事例も紹介します。

BDRC Tibetan OCRとは

BDRC Tibetan OCR は、チベット語の画像からテキストを自動抽出する無料のオープンソースツールです。

主要な特徴

1. デスクトップアプリケーション

Windows、macOS（Intel/M1,M2）で動作するGUIアプリケーションです。

インストール方法:

リリースページから各OS用のZIPファイルをダウンロード
解凍して実行ファイルを起動するだけ

2. 複数の出力形式

プレーンテキスト : 抽出されたUnicodeチベット文字
PageXML : 座標情報付きXML（Transkribusと互換）
Wylie : ローマ字転写形式

3. 画像補正機能

歪み補正（Dewarping） : ページの湾曲を補正
回転補正 : 自動的にページの傾きを検出・補正
行検出 : 行分割機能

4. バッチ処理対応

複数の画像ファイルを一括処理
PDFファイルからの直接OCR
IIIF（International Image Interoperability Framework）マニフェストからの自動取得・処理

4つの専門OCRモデル

BDRC Tibetan OCRの特徴の一つは、書体や資料の種類に応じて最適化された4つの専門モデル を提供している点です。

1. ウチェン（Uchen）モデル - 現代印刷用

ウチェンは「正書体」を意味し、チベット語で最も標準的な書体です。現代の印刷物やデジタルフォントで使用されます。

2. ウメ（Ume）モデル - 手書き写本用

ウメは「頭無し文字」を意味し、仏教写本で広く使用された書体です。

3. 木版印刷（Woodblock）モデル - 古典版画用

4. その他の専門モデル

キエンツェ・ワンポデータセット : 現代活字版から約1万3000行のサンプルで訓練
敦煌写本モデル : 8世紀まで遡る古文書用の特殊モデル

モデルの学習データ

これらのモデルは、以下のソースから収集されたデータセットで訓練されています：

BDRC - Buddhist Digital Resource Center
ALL - Asian Legacy Library
Adarsha
NorbuKetaka

学習済みモデルとデータセットの一部は、HuggingFaceのBDRCアカウントとOpenPechaでオープンアクセスとして公開されています。

実装事例：チベット語写本カンギュールのデジタル化プロジェクト

チベット語写本カンギュール114点 をデジタル化するプロジェクトでの実装例を紹介します。

プロジェクト概要

対象資料 : チベット語写本カンギュール 114点
処理方式 : IIIF Image APIからの自動画像取得 + バッチOCR処理
出力形式 : TEI/XML形式（Text Encoding Initiative P5準拠）
公開 : Webビューアで画像とテキストを並列表示

技術構成

1. IIIF連携による効率的な画像取得

IIIF（International Image Interoperability Framework）規格に準拠した画像サーバーから、メタデータと高解像度画像を自動的に取得します。

2. バッチOCR処理

主要なパラメータ:

k_factor: 行検出の感度調整（木版印刷では2.5を使用）
bbox_tolerance: 文字のバウンディングボックス許容値（デフォルト: 4.0）
merge_lines: 分割された行を自動的にマージ
use_tps: TPS（Thin Plate Spline）変換による歪み補正

3. TEI/XML出力

TEI/XMLの構造:

処理フロー

使用方法

単一画像のOCR処理

IIIFマニフェストからのバッチ処理

主要なオプション:

--model: 使用するOCRモデル（Modern, Ume_Druma, Ume_Petsuk, Woodblock, Woodblock-Stacks）
--format: 出力形式（text, xml, json, all）
--encoding: 文字エンコーディング（unicode, wylie）
--dewarp: 歪み補正を適用
--bbox-tolerance: バウンディングボックスの許容値（デフォルト: 4.0）

プロジェクトの成果

処理済み文書数 : 33件（進行中）
TEI/XML出力 : 各写本に対して座標情報付きXMLを生成
IIIF連携 : 画像とテキストを統合したWebビューアを実現
DTS Collections API : 標準化されたメタデータAPIを提供

技術的な詳細

アーキテクチャ

BDRC Tibetan OCRは、2つの主要なニューラルネットワークで構成されています：

行検出モデル（PhotiLines）
- セマンティックセグメンテーションによる行領域の検出
- パッチサイズ: 512×512
- ONNX形式で提供
OCRモデル（Easter2アーキテクチャ）
- CRNN（Convolutional Recurrent Neural Network）ベース
- 入力: 可変幅×固定高さの画像
- 出力: Unicode文字列またはWylie転写
- ONNX Runtime で高速推論

プログラムでの利用

Pythonでの基本的な使い方

出力形式の詳細

1. プレーンテキスト (.txt)

2. PageXML (.xml)

3. JSONL (.jsonl)

パフォーマンス

木版印刷（Woodblock）モデルでの実測値（MacBook Pro M1）：

処理速度 : 約1ページ/15-20秒（7360×4912ピクセルの高解像度画像）
行検出精度 : 95%以上
文字認識精度 : 90-95%（資料の保存状態により変動）
メモリ使用量 : 約2GB

まとめ

主な特徴

専門モデル : 書体・資料別に最適化された4つのモデルを提供
完全無料 : オープンソースで制限なく利用可能
アプリケーション : GUIアプリとCLIツールの両方を提供
標準規格準拠 : IIIF、TEI/XML、PageXMLなど国際標準に対応
ローカル処理 : ローカル環境で処理が完結

適用可能なプロジェクト

デジタル図書館の構築
仏教経典のテキスト化
研究用コーパスの作成
歴史文書のアーカイブ化
教育用デジタル教材の開発

今後の可能性

このようなプロジェクトでは、以下のような機能拡張が考えられます：

自動校正機能 : OCR結果の後処理による精度向上
並行テキスト表示 : 複数版の比較表示
全文検索機能 : OCRテキストを対象とした検索
アノテーション機能 : 研究者によるコメント・注釈の付与

リソース

公式リンク

GitHubリポジトリ : https://github.com/buda-base/tibetan-ocr-app
リリースページ : https://github.com/buda-base/tibetan-ocr-app/releases
学習済みモデル（HuggingFace） : https://huggingface.co/BDRC
トレーニングコード : https://github.com/buda-base/tibetan-ocr-training

参考文献

Buddhist Digital Resource Center: https://www.bdrc.io/
TEI (Text Encoding Initiative): https://tei-c.org/
IIIF (International Image Interoperability Framework): https://iiif.io/
DTS (Distributed Text Services): https://distributed-text-services.github.io/

謝辞

BDRC Tibetan OCRは、Buddhist Digital Resource Center (BDRC) によって開発されたオープンソースツールです。ツールの開発者であるEric Werner氏に感謝いたします。

公開日 : 2025-11-13

はじめに#

BDRC Tibetan OCRとは#

主要な特徴#

1. デスクトップアプリケーション#

2. 複数の出力形式#

3. 画像補正機能#

4. バッチ処理対応#

4つの専門OCRモデル#

1. ウチェン（Uchen）モデル - 現代印刷用#

2. ウメ（Ume）モデル - 手書き写本用#

3. 木版印刷（Woodblock）モデル - 古典版画用#

4. その他の専門モデル#

モデルの学習データ#

実装事例：チベット語写本カンギュールのデジタル化プロジェクト#

プロジェクト概要#

技術構成#

1. IIIF連携による効率的な画像取得#

2. バッチOCR処理#

3. TEI/XML出力#

処理フロー#

使用方法#

単一画像のOCR処理#

IIIFマニフェストからのバッチ処理#

プロジェクトの成果#

技術的な詳細#

アーキテクチャ#

プログラムでの利用#

Pythonでの基本的な使い方#

出力形式の詳細#

1. プレーンテキスト (.txt)#

2. PageXML (.xml)#

3. JSONL (.jsonl)#

パフォーマンス#

関連ツールとの比較#

Tesseract OCR#

Transkribus#

BDRC Tibetan OCRの特徴#

まとめ#

主な特徴#

適用可能なプロジェクト#

今後の可能性#

リソース#

公式リンク#

参考文献#