Transkuribusを用いたテキストアノテーションを試す機会がありましたので、備忘録です。
Transkuribusは以下です。
https://www.transkribus.org/
以下のように説明されています。
Transkribus enables you to automatically recognise text easily, edit seamlessly, collaborate effortlessly, and even train your custom AI for digitizing and interpreting historical documents of any form.
(機械翻訳)あらゆる形式の歴史的文書をデジタル化・解釈するために、テキストの自動認識、シームレスな編集、効率的なコラボレーション、さらにカスタムAIのトレーニングまでを可能にするツール
Transkuribusの日本語による説明として、以下が大変参考になりました。
https://connectivity.aa-ken.jp/ja/newsletter/588/index.html
一方、上記のページでご紹介いただいているデスクトップ版である「Transkribus eXpert」は、deprecatedになっていました。
https://help.transkribus.org/downloading-and-installing-transkribus-expert-deprecated
Please note that Transkribus eXpert (desktop software) is no longer being updated, and all new features will be exclusively available on the Transkribus web app.
サンプルデータ# Recogitoについても、以下の使い方の記事を作成しました。
この記事と同様に、国立国会図書館が公開する以下を例とします。
使い方# トップページにアクセスします。
ログイン後、以下のようなホーム画面に遷移します。
コレクション(Collections)に遷移します。
特定のコレクションをクリックすると、以下のドキュメント一覧に遷移します。
右上のアップロードボタンから、ドキュメントの追加が可能です。以下のように、IIIFマニフェストファイルを用いた登録も可能でした。
インポートしたドキュメントを開くと、以下のように画像ごとのページに遷移します。
画像をクリックすると、以下のような編集画面に遷移します。
Regionを作成し、その中に行ごとの矩形を作成し、テキストを入力しました。
エクスポート# ページごとのデータはTXTでのエクスポートの他、Prima Page Content XMLという形式でダウンロードできました。
Prima Page Content XMでダウンロードした結果は以下です。
< < ? P / x c P m G c l t < < G s M / P / t v e M a P s e x t e g a > r m a < < < < t e < < g s l d C C L T a R / T / e i n a r r a r d i e R e T > o s t e e s a a m a e x e n = a a a t n t a d < a t < < < < < < < < < < < < < < < < x = " > t t C s a g i O / d R C T / T / T / T / T / T / T / T / T / T / T / T / T / T / T / t " h o e h k > e n r O i e o e T e T e T e T e T e T e T e T e T e T e T e T e T e T e T R 1 t r d a r F g d r n g o x e x e x e x e x e x e x e x e x e x e x e x e x e x e x e e . t > > n i i O e < d g i r t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < < < x t < x g 0 p T 2 g b l r r R e O o d L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t L C B T / t E U t i " : r 0 e u e d e e r r n s i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L i o a e T L q n E o / a 2 > s n e d g e d n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i n o s x e i u i q n e / n 5 2 M a r G i d e i p e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n e r e t < x n i c u > n s s - 0 e m > r o G r d o d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e d l E U t e v o i c c k 0 2 t e o n r > = i i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > i s i q n E > > d v o h r 7 5 a = u R o " n d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q d n u i q e > d e i - - d " p e u r t = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u = p e i c u > i m b 2 0 a 0 f p _ s " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i " o v o i < n a u 3 7 t 0 i I > 7 = l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v l i p > d v / g . s T - a 0 d n 9 " _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > _ n o e > U = p < 0 2 1 = d " 4 3 t i > 3 t i > 3 t i > 3 t i > 7 t i > 1 t i > 2 t i > 2 t i > 2 t i > 3 t i > 1 t i > 1 t i > 2 t i > 1 t i > n " r / 9 3 d _ " e 2 9 s n と 6 s n 奉 2 s n 奉 0 s n 順 8 s n 一 2 s n 御 3 s n 兼 5 s n 被 8 s n 御 4 s n 申 9 s n 今 4 s n 奉 1 s n 尚 7 s n 御 i U i C : T o d r x c 1 1 = t の 9 = t 存 5 = t 存 3 = t 元 " = t 筆 7 = t 座 7 = t 而 9 = t 仰 1 = t 訴 7 = t 上 3 = t 度 9 = t 存 5 = t 又 1 = t 仕 c T m r 4 1 c i o e u , " " s 之 " " s 候 " " s 候 " " s ニ " s 啓 " " s 候 " " s 相 " " s 分 " " s 被 " " s 候 " " s 被 " " s 候 " " s 御 " " s 意 o F a e 9 0 I g _ d s 8 4 = < 7 = 一 1 = 依 1 = 付 c 4 = 上 4 = 処 2 = 願 2 = 忝 2 = 差 1 = 趣 3 = 遊 3 = 恐 2 = 用 3 = 被 d - r a : : d i 1 t 5 c 4 " / c 5 " れ c 4 " 之 c 7 " 今 u 3 " 仕 c 1 " 貴 c 6 " 旨 c 3 " 被 c 0 " 出 c 0 " を c 3 " 候 c 8 " 々 c 9 " も c 5 " 下 e 8 e t 5 1 = d 7 i o 6 u 3 4 U u 5 7 へ u 0 1 今 u 0 1 様 s 1 4 候 u 0 4 地 u 3 2 被 u 7 2 仰 u 2 2 候 u 5 1 以 u 0 3 御 u 2 3 一 u 5 2 専 u 6 3 候 > " s o 3 8 " e 5 n m s , 4 n s , 5 も s 1 4 便 s 1 7 は t 5 3 寒 s 1 1 御 s 9 6 候 s 3 3 出 s 8 0 得 s 9 0 可 s 4 3 呼 s 2 8 触 s 4 9 可 s 8 5 以 e r . : 9 p 3 d = 4 t 8 3 i t 8 5 遠 t , 0 ニ t , 0 被 o , 1 湿 t , 0 揃 t , 3 三 t , 7 候 t , 2 申 t , 5 然 t , 0 悲 t , 2 共 t , 5 申 t , 6 下 s a > 6 2 6 o 2 e " 6 o 9 , c o 9 , 方 o 9 1 は o 9 1 成 m 9 5 不 o 9 1 奉 o 9 9 才 o 9 3 右 o 9 8 居 o 9 9 御 o 9 4 被 o 9 2 有 o 9 4 候 o 9 8 候 t r 3 6 9 _ 6 x r 7 m 3 8 o m 8 8 御 m 1 , 文 m 1 , 御 = 1 , 順 m 1 , 仕 m 1 , 藤 m 2 , は m 2 , え m 2 , 取 m 3 , 成 m 3 , 之 m 4 , 先 m 4 , 貴 a c 1 . 7 2 0 = e 5 = 9 d = 9 労 = 0 9 略 = 1 9 覧 " 3 9 之 = 3 9 請 = 6 9 助 = 1 9 御 = 3 9 差 = 9 9 計 = 3 9 坐 = 3 9 事 = 4 9 は = 5 9 意 n h + 8 5 5 2 " a , " 4 3 e " 8 8 煩 " 1 之 " 1 候 r 1 気 " 1 覚 " 1 候 " 2 城 " 2 出 " 2 候 " 3 候 " 3 無 " 4 さ " 4 御 d . 0 7 6 8 0 0 d 8 r 5 > r 0 之 r 1 0 前 r 1 1 半 e 4 3 儘 r 4 3 重 r 2 6 早 r 2 1 去 r 2 3 候 r 1 9 は r 3 3 哉 r 3 3 御 r 3 4 < r 3 5 膳 a o 2 3 7 5 6 " i 9 e 8 4 e 4 8 方 e 4 後 e 8 と a 4 ニ e 2 候 e 7 速 e 5 翌 e 1 間 e 1 < e 3 < e 9 座 e 1 / e 7 痛 l r : + " 1 9 n 0 a , 5 a , 0 < a 8 1 < a 1 1 < d 5 4 < a 5 4 時 a 2 2 < a 0 2 日 a 3 2 < a 6 1 / a 6 3 / a 6 3 候 a 1 3 U a 0 3 可 o g 0 0 6 2 r g d 1 8 d 3 4 / d 3 4 / d 8 8 / i 3 4 / d 7 2 御 d 9 7 / d 6 5 < d 6 1 / d 8 1 U d 1 3 U d 4 9 < d 8 1 n d 4 7 被 n / 0 2 p 4 9 e O 4 i 7 , i 2 , U i , 8 U i , 1 U n , 5 U i , 5 座 i , 2 U i , 0 / i , 3 U i , 6 n i , 6 n i , 6 / i , 1 i i , 0 下 e P < : a _ " g r 6 n 7 1 n 2 3 n n 3 3 n n 3 8 n g 3 3 n n 3 7 候 n 3 9 n n 3 6 U n 3 6 n n 3 8 i n 3 1 i n 3 4 U n 3 8 c n 3 4 < = A / 0 g p i d 7 g 0 7 g 9 2 i g 2 , i g 2 , i O 2 , i g 2 , < g 2 , i g 1 , n g 2 , i g 2 , c g 2 , c g 2 , n g 2 , o g 2 , / " G C 0 e n c o e 5 O 7 O 2 c O 2 3 c O 0 3 c r 5 3 c O 1 3 / O 1 3 c O 9 3 i O 0 3 c O 0 3 o O 2 3 o O 2 3 i O 2 3 d O 1 3 U y E r < I _ a n r , r 7 0 r 1 9 o r 1 2 o r 0 2 o d 6 2 o r 0 2 U r 1 2 o r 5 1 c r 2 2 o r 9 2 d r 5 2 d r 3 2 c r 0 2 e r 9 2 n e / e / d n p R 3 d 2 d 0 d d 2 d d 0 d e 5 d d 1 n d 1 d d 9 o d 0 d d 0 e d 2 e d 2 o d 2 > d 1 i s g a L = u t e { 2 e 5 7 e 8 1 e e 1 1 e e 2 0 e r 4 6 e e 4 0 i e 3 1 e e 2 5 d e 2 2 e e 1 9 > e 3 5 > e 4 3 d e 3 0 e 3 9 c " t t a " l i f i 5 r , 2 r 7 0 > r 7 > r 0 > 6 > r 4 c r 0 > r 6 e r 3 > r 4 r 6 r 2 e r 3 r 9 o ? s e s 1 l o = n 6 1 5 , 8 5 1 7 2 { 7 4 3 4 o 3 3 9 2 > 8 2 1 1 3 3 0 4 > 2 3 1 3 d > / d t 0 _ n " d { 7 , { 3 7 { 6 7 { 2 0 i 5 6 { 7 4 d { 8 0 { 3 6 { 7 3 { 3 4 { 4 6 { 3 2 { 5 3 { 4 9 e p > C 0 2 = r e 4 i 6 1 i 2 , i , 5 i , 7 n , 7 i , 3 e i , 3 i , 9 i , 8 i , 1 i , 3 i , 0 i , 2 i , 1 > a h 6 7 " _ x 6 n 3 7 n 4 3 n 3 6 n 3 2 d 3 5 n 3 7 > n 3 8 n 3 3 n 3 7 n 3 3 n 3 4 n 3 3 n 3 5 n 3 4 g a 7 2 R 7 : 2 d 6 d 1 2 d 2 , d 2 , e 2 , d 2 , d 2 , d 2 , d 2 , d 2 , d 2 , d 2 , d 2 , d 2 , e n 2 1 e 9 0 , e 7 3 e 4 e 0 3 e 0 3 x 5 3 e 1 3 e 2 3 e 0 3 e 0 3 e 1 3 e 2 3 e 5 3 e 0 3 e 1 3 c g 6 2 g " ; 3 x 1 x 1 1 x 4 2 x 3 2 : 1 2 x 2 2 x 9 2 x 5 2 x 8 2 x 1 2 x 5 2 x 0 2 x 6 2 x 5 2 o e 9 3 i } 3 : 7 7 : 0 : 0 : 0 4 5 : 1 : 2 : 0 : 0 : 1 : 2 : 5 : 0 : 1 n > 6 3 " 0 0 , 1 1 1 1 2 1 4 3 1 3 ; 4 1 5 4 2 6 2 9 7 2 5 8 2 8 9 1 1 1 3 5 1 4 0 1 3 6 1 3 5 t " 4 n > 7 ; 8 7 ; 3 0 ; 6 ; 9 } 5 ; 3 ; 8 ; 5 ; 2 ; 3 0 5 1 0 2 2 3 7 e - s " } 7 , } , 1 } 5 1 } 7 1 " 5 4 } 1 4 } 9 2 } 9 2 } 8 2 } 2 1 ; 2 3 ; 4 4 ; 5 3 ; 9 3 n p 9 / " 9 8 " 9 3 " 6 6 " 6 9 > 3 5 " 4 3 " 8 8 " 9 5 " 8 2 " 0 3 } 8 5 } 1 0 } 9 2 } 0 7 t a 6 r > > 7 > 0 , > , 5 > , 7 , 5 > , 1 > , 9 > , 9 > , 8 > , 2 " , 2 " , 4 " , 5 " , 9 / g a e 4 9 7 9 9 6 9 6 8 3 9 4 9 8 9 9 9 8 9 0 > 9 8 > 9 1 > 9 9 > 9 0 2 e 2 a 3 0 1 , 1 , 9 , 1 , 0 , 1 , 0 , 0 , 3 , 1 , 2 , 3 , 0 N - d 8 4 7 7 9 9 1 9 0 8 0 9 8 9 1 9 1 9 4 9 2 9 8 9 5 9 0 9 1 r 4 i , 3 4 1 1 9 1 0 1 0 0 3 1 2 3 3 = 8 n 8 8 7 7 1 9 1 1 4 0 4 0 2 8 2 1 2 1 1 4 3 2 3 8 2 5 3 0 - " 0 g 8 , , 4 3 6 3 0 6 3 0 0 2 8 9 5 0 1 3 4 8 8 7 9 1 9 1 1 4 9 4 3 2 6 2 2 2 5 1 9 3 2 3 5 2 6 3 7 " - o 8 9 , 8 3 8 6 2 3 9 0 5 6 8 3 9 0 9 0 8 2 1 8 5 9 7 5 - b r 4 4 0 8 , 9 , 9 , 1 , 9 , 3 , 6 , 2 , 5 , 9 , 2 , 5 , 6 1 t c d 3 " 9 9 8 9 8 9 2 9 9 9 5 9 8 9 9 9 9 9 8 9 1 9 5 9 7 5 s 0 e 9 / 7 0 1 , 0 , 0 , 1 , 2 , 2 , 1 , 2 , 3 , 2 , 3 , 4 , " i 6 r , > 4 " 5 9 6 9 4 9 6 9 0 9 0 9 9 9 0 9 7 9 8 9 8 9 0 9 d - " 9 5 / 1 0 0 1 2 2 1 2 3 2 3 4 x = 1 > 1 , > 1 5 1 6 4 4 4 6 2 0 2 0 2 9 1 0 3 7 3 8 2 8 3 0 m " 0 4 9 3 " 6 " 3 " 1 " 6 " 3 " 0 " 0 " 2 " 8 " 9 " 5 " l 2 7 2 9 / 9 / 1 / 0 / 3 / 7 / 3 / 6 / 9 / 2 / 5 / 6 / n 5 c 6 0 8 > 7 > 3 > 0 > 6 > 0 > 1 > 0 > 9 > 3 > 6 > 8 > s 1 d 8 , , , , , , , , , , , , : 4 b 9 9 9 9 9 9 9 9 9 9 9 9 9 9 x 5 a , 8 4 3 3 4 4 5 4 5 6 5 6 7 s 8 8 9 5 5 6 4 6 9 0 9 0 7 8 8 0 i 3 7 0 , = 4 c 8 9 1 1 4 4 2 2 2 1 3 4 3 3 " 8 c 3 6 9 5 2 8 5 2 2 5 0 2 7 h " c 6 4 2 4 2 8 7 7 6 9 0 1 3 6 t . 9 8 9 6 7 1 2 1 3 1 4 2 3 t s j 7 1 , , , , , , , , , , , , p t p , 0 9 9 9 9 9 9 9 9 9 9 9 9 : a g 1 5 4 3 2 3 3 4 3 3 6 4 5 5 / t " 7 8 7 9 0 9 7 0 1 4 1 8 4 9 / u 3 , w s i 5 3 1 2 4 4 3 2 2 1 3 4 3 3 w = m 2 7 0 6 4 0 6 3 3 6 1 2 8 w " a 4 1 2 4 4 0 0 6 5 8 0 7 9 8 . I g 8 2 6 3 6 7 9 4 8 4 4 4 6 4 w N e 5 , , , , , , , , , , , , 3 _ W , 8 3 3 3 3 3 3 3 3 3 3 3 3 . P i 1 3 1 1 2 1 2 1 1 1 1 2 1 1 o R d 7 2 7 7 2 8 0 7 7 8 9 1 8 8 r O t 4 , 7 5 4 4 0 6 9 3 7 9 0 7 g G h 1 3 / R = 2 1 1 4 4 2 2 2 1 3 3 3 3 2 E " 4 0 5 8 4 2 7 5 1 1 3 9 1 7 0 S 8 7 2 1 4 8 8 5 3 6 9 8 9 4 3 0 S 2 3 0 5 0 4 7 3 3 5 8 2 5 1 1 " 9 , 7 , , , , , , , , , , , , / 2 8 8 3 3 3 3 3 3 3 3 3 3 3 3 X u " 9 5 1 1 2 1 1 1 1 1 1 1 1 1 M s 2 , 9 7 2 8 8 6 7 8 9 9 9 9 L e i " 8 1 2 7 2 4 7 4 1 6 7 0 0 S r m / 9 c I a > 8 1 1 4 4 2 2 2 1 3 3 2 3 h d g " 4 7 3 1 6 4 0 0 3 8 9 5 e = e / 3 3 4 3 6 0 5 8 3 5 8 9 m " H > 1 1 5 1 9 3 8 9 4 2 4 8 a 4 e , , , , , , , , , , , , - 3 i 9 9 9 9 9 9 9 9 9 9 9 9 i 4 g 0 0 1 1 1 2 2 2 3 3 4 4 n 4 h 9 9 1 1 4 0 2 8 2 1 2 3 s 1 t " " " " " " " " " " " " t " = / / / / / / / / / / / / a " > > > > > > > > > > > > n i 4 c m 7 e g 9 " U 4 r " x l > s = i " : h s t c t h p e s m : a / L / o f c i a l t e i s o . n t = r " a h n t s t k p r : i / b / u s s c . h e e u m / a G . e p t r ? i i m d a = r L e Z s O e B a F r Y c A h O . A o K r I g R / A P O A X G Q E M / A g P t M s U / P p K a X g & e a c m o p n ; t f e i n l t e / T 2 y 0 p 1 e 3 = - v 0 i 7 e - w 1 " 5 x h m t l t U p r : l / = / " s h c t h t e p m s a : . / p / r f i i m l a e r s e . s t e r a a r n c s h k . r o i r b g u / s P . A e G u E / / G g e t t s ? / i p d a = g O e U c N o Y n S t F e B n L t L / N 2 L 0 D 1 Z 3 U - N 0 C 7 D - N 1 F 5 E / J p D a R g X e " c o i n m t a e g n e t I . d x = s " d 8 " 4 > 4 7 4 1 1 1 " / > まとめ# 矩形の作成と、テキストの入力までを確認しました。
HTRモデルの学習や推論など、Transkuribusの特徴的な機能までは試すことができなかったため、また別の記事で確認したいと思います。