概要
Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリを試作しましたので備忘録です。

背景
Google Cloud Vision APIを使ってOCR結果を反映したTEI/XMLファイルを作成する環境が必要になりました。そこでバックエンドとしてGakuNin RDMを用いて、ユーザごとにファイルを管理して、OCRを実行可能な環境を試作しました。
使い方
フォルダの作成
以下にアクセスします。
https://ge-manager.vercel.app/

画面右上から、GakuNin RDMを使ってログインします。
以下のようにプロジェクト一覧が表示されます。

適当な階層まで下り、フォルダの作成ボタンを押します。

ここでは、「sample」というフォルダを作成します。

そして、「GE Manager」のリンクを押します。

以下のようなページに遷移します。

処理の実行
今回は、「e-codices - Virtual Manuscript Library of Switzerland」の「fragm1a」を使用させていただきます。

画像のURLを入力して、アップロードボタンを押します。アップロードされると、以下のような画面に変わります。

次に、「OCR実行」ボタンを押します。正しく完了すると、以下のように表示されます。

次に「TEI/XML作成」ボタンを押します。正しく完了すると、以下のようにTEI/XMLとともに表示されます。

Oxygen XML Editorでダウンロードしたファイルを表示した例です。Google Cloud Vision APIによるOCR結果を確認することができます。

GakuNin RDMのファイル
上記のプロセスで作成された各種ファイルは、GakuNin RDMのフォルダにファイルとして保存されます。

参考: URLを介してアクセス可能な画像ファイルを用意する
mdx.jpのオブジェクトストレージを利用して、URLを介してアクセス可能な画像ファイルを用意する。
今回はge-editorというバケットを作成し、以下のようなファイルを用意します。
そして、以下を実行することで、上記のバケットにアップロードされたファイルをダウンロード可能にします。
以下を参考にしています。
https://docs.mdx.jp/ja/index.html#bucket全体をまとめて公開する方法を教えてください。
その後、以下などを参考にGakuNin RDMとオブジェクトストレージを接続します。
これにより、GakuNin RDM経由でアップロードしたファイルについて、以下のようなURLでダウンロードすることができます。
https://s3ds.mdx.jp/ge-editor/files/sample/sample.jpg
まとめ
TEI/XMLファイルの作成において、OCRを用いた下書きテキストの作成において、参考になりましたら幸いです。