画像ファイルに対してGoogle Cloud Visionを適用して、IIIFマニフェストおよびTEI/XMLファイルを作成するライブラリを作成しました。
https://github.com/nakamura196/iiif_tei_py
本ライブラリの使用方法を説明します。
使用方法#
以下で使い方などを確認できます。
https://nakamura196.github.io/iiif_tei_py/
ライブラリのインストール#
GitHubのリポジトリから、ライブラリをインストールします。
GCのサービスアカウントの作成#
以下の記事などを参考に、GC(Google Cloud)のサービスアカウントキー(JSONファイル)をダウンロードします。
https://book.st-hakky.com/data-science/data-science-gcp-vision-api-setting/
そして、以下のような.envファイルを作成します。
入力サンプル画像として、IIIF Cookbookでも使用されている以下の画像を使用します。
https://iiif.io/api/presentation/2.1/example/fixtures/resources/page1-full.png

以下のようなファイルを作成して実行します。
上記の例では、IIIFマニフェストファイルが./tmp/01/output.jsonに、TEI/XMLファイルが./tmp/01/output.xmlに作成されます。
結果の確認#
IIIF#
IIIFマニフェストファイルをMiradorで表示した例が以下です。

JSONファイルの内容は以下です。
TEI#
また、TEI/XMLファイルをOxygen XML Editorで表示した例が以下です。

XMLファイルの内容は以下です。
まとめ#
Google Cloud Visionを用いた校正前テキストの作成といった用途において、参考になりましたら幸いです。