概要

Google Cloud Vision APIとGakuNin RDMを用いたTEI/XMLファイル作成アプリを試作しましたので備忘録です。

背景

Google Cloud Vision APIを使ってOCR結果を反映したTEI/XMLファイルを作成する環境が必要になりました。そこでバックエンドとしてGakuNin RDMを用いて、ユーザごとにファイルを管理して、OCRを実行可能な環境を試作しました。

使い方

フォルダの作成

以下にアクセスします。

https://ge-manager.vercel.app/

画面右上から、GakuNin RDMを使ってログインします。

以下のようにプロジェクト一覧が表示されます。

適当な階層まで下り、フォルダの作成ボタンを押します。

ここでは、「sample」というフォルダを作成します。

そして、「GE Manager」のリンクを押します。

以下のようなページに遷移します。

処理の実行

今回は、「e-codices - Virtual Manuscript Library of Switzerland」の「fragm1a」を使用させていただきます。

https://www.e-codices.unifr.ch/loris/gau/gau-Fragment/gau-Fragment_frag001a.jp2/full/full/0/default/jpg

画像のURLを入力して、アップロードボタンを押します。アップロードされると、以下のような画面に変わります。

次に、「OCR実行」ボタンを押します。正しく完了すると、以下のように表示されます。

次に「TEI/XML作成」ボタンを押します。正しく完了すると、以下のようにTEI/XMLとともに表示されます。

Oxygen XML Editorでダウンロードしたファイルを表示した例です。Google Cloud Vision APIによるOCR結果を確認することができます。

GakuNin RDMのファイル

上記のプロセスで作成された各種ファイルは、GakuNin RDMのフォルダにファイルとして保存されます。

参考: URLを介してアクセス可能な画像ファイルを用意する

mdx.jpのオブジェクトストレージを利用して、URLを介してアクセス可能な画像ファイルを用意する。

今回はge-editorというバケットを作成し、以下のようなファイルを用意します。

{}""]VSet{}rast"""}""ieSEP,ARomifr"cenedfiDts"n"enDio:t:ccNou"ti"nr":""p:"c2g:a:e0[el["0-"""[:8eA:*"-dl"s"1il{]3g0to:e-owL-1r"ie7",sd",ti,Btuocrk"et","s3:GetObject"],

そして、以下を実行することで、上記のバケットにアップロードされたファイルをダウンロード可能にします。

ss33m:d/x/g%e-se3dcimtdor/-:noP-oclhieccyk-ucpedrattiefdicatesetpolicyconfig.jsons3://ge-editor

以下を参考にしています。

https://docs.mdx.jp/ja/index.html#bucket全体をまとめて公開する方法を教えてください。

その後、以下などを参考にGakuNin RDMとオブジェクトストレージを接続します。

これにより、GakuNin RDM経由でアップロードしたファイルについて、以下のようなURLでダウンロードすることができます。

https://s3ds.mdx.jp/ge-editor/files/sample/sample.jpg

まとめ

TEI/XMLファイルの作成において、OCRを用いた下書きテキストの作成において、参考になりましたら幸いです。