機械学習 | デジタルアーカイブシステムの技術ブログ

Google Colabを用いたNDL

概要 Google Colabを用いたNDL"古典籍"OCRアプリを作成しました。以下のURLからお試しいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/NDL古典籍OCRの実行例.ipynb NDL古典籍OCRの説明は以下です。 https://github.com/ndl-lab/ndlkotenocr_cli また、ノートブックの作成にあたっては、@blue0620さんのノートブックを参考にしています。ありがとうございます！ https://twitter.com/blue0620/status/1617888733323485184 今回作成したノートブックでは、入力フォーマットの追加や、Googleドライブへの保存機能などを追加しています。使い方 NDLOCRアプリの使い方とほぼ同様です。以下の動画を参考にしてください。 https://youtu.be/46p7ZZSul0o 工夫工夫した点として、認識結果をIIIFマニフェストの形に変換し、Miradorビューアで閲覧できるようにしました。具体的には、以下のような出力が得られます。後者のリンクをクリックすることで、以下のようなMiradorビューアが表示され、認識結果を確認することができます。このIIIFマニフェストファイルも、Googleドライブに格納しています。参考 NDLOCRのチュートリアルについては、以下を参考にしてください。

Vertex AIのworkbenchを使用した際、HuggingFaceのTrainer()が開始されない事象への対処法

Google CloudのVertex AIのworkbenchを使用した際、HuggingFaceのTrainer()が開始されない事象に遭遇しました。この件について、以下のページで同様の不具合が報告されていました。 https://stackoverflow.com/questions/73415068/huggingface-trainer-does-nothing-only-on-vertex-ai-workbench-works-on-colab 当初、以下のような「PyTorch」の環境を選んでいましたが、この環境で上記の不具合が生じました。そこで、上記の記事にある通り、「Python」の環境を選択することで、上記の不具合を避けることができました。なお、上記の環境を選んだ場合、まず以下のような実行が必要です。 c o n d a i n s t a l l p y t o r c h c u d a t o o l k i t = 1 1 . 0 - c p y t o r c h 同様のことでお困りの方の参考になりましたら幸いです。

Hugging Face SpacesとYOLOv5モデル（NDL-DocLデータセットで学習済み）を使った推論アプリの構築

概要 Hugging Face Spacesと、以下の記事で紹介したYOLOv5モデル（NDL-DocLデータセットで学習済み）を使った推論アプリを作成しました。以下のURLからお試しいただけます。 https://huggingface.co/spaces/nakamura196/yolov5-ndl-layout また以下のURLからソースコードや学習済みモデルをダウンロードすることができます。同様のアプリケーションを開発される際の参考になれば幸いです。 https://huggingface.co/spaces/nakamura196/yolov5-ndl-layout なお、アプリケーションの開発には、以下のSpaceを参考にしています。 https://huggingface.co/spaces/pytorch/YOLOv5 使い方画像をアップロードするか、Examplesから画像を選択してご利用いただけます。以下のように認識結果を確認することができます。 APIの利用 APIの利用方法に関するノートブックを作成しました。こちらも参考になりましたら幸いです。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/gradioのAPI利用.ipynb

Google Colabを用いたNDLOCRの実行にかかる時間について

先日、以下の記事を執筆しました。今回は、Google Colabを用いたNDLOCRの実行にかかる時間について、かんたんな調査を行なったので、その結果をまとめます。設定 GPUは以下です。 F r = = i N G F = N P = V P a = / r G = N A I U n = 0 A o P = o p D = c U = r I = e = r A N T = T s = u 2 - a e = e 3 s = n 9 S m m = s 5 e G I = n M e p = l C s I D = i 0 I = a : = n 6 = = g : 4 P = V = 2 6 e = 1 C I = p 6 0 r = 0 P I D = r : . f = 0 0 = o 2 3 = - = c 9 2 = S = e . P P = X = s 2 0 e w = M = s 0 3 r r = 2 2 = e 2 s : = . 3 = s 2 i U = . W = s s = . P = f t a = / I = o D e g = D = u r n e = O 3 = n i c / = f 0 = d v e C = f 0 = e - a = W T = r M p = y = p = V = e = e B = 0 = r u = 0 = s s = 0 = i - = 0 P = o I = 0 r = n d = 0 0 o = : = 0 M c = = 0 i e = 4 M = : B s = 6 e = 0 s = 0 m = 0 / = . o = : n = 3 r = 0 1 a = 2 y = 4 6 m = . D - = . 1 e = 0 i U = 0 6 = 3 s s = 0 = p a = O M = . g = f i = A e = f B = = = C = U = = D V G = = A o P = = l U = = V a - = = e t U = = r i t = 0 = s l i = % = i e l = = o = = n U = = : n C = G U = c o = P s = 1 o m = U a = 1 r p = D g = . r u M = e M e = 2 . t I = f e = e G = a m = E = u N o = C M M = l / r = C . . = 0 t A y = = = 以下の画像を用いました。サイズは5000 x 3415 px で、 1.1 MB でした。 ...

Google Colabを用いたndl-lab図表自動抽出プログラムの実行

概要 ndl-labでは、以下の図表自動抽出プログラムが公開されています。 https://github.com/ndl-lab/tensorflow-deeplab-v3-plus 今回は上記のプログラムについて、Google Driveを用いた画像の入力と結果の保存までの手続きを含むGoogle Colabの使用方法をまとめましたので紹介します。ノートブック今回作成したGoogle Colabのノートブックには以下からアクセスいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb Googleドライブ上に入力画像のフォルダを用意することで、図表の自動抽出処理を実行することができます。基本的な操作方法は、上記のノートブック内の説明をご確認ください。以下、実行例を紹介します。本ノートブックでは、（1）入力フォルダを準備する方法と、（2）IIIFマニフェストファイルのURLを入力する方法の2つがあります。それぞれについて説明します。実行方法：（１）入力フォルダの準備入力フォルダの準備まず、Google Drive上に画像ファイルを格納したフォルダを作成します。今回は、以下のように、マイドライブに「ndl_deeplab > input」というフォルダを作成して、その直下に画像ファイルを格納しました。ノートブックの実行：1.初期セットアップ先に示した以下のノートブックにアクセスしてください。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb そして、用意されている2つの再生ボタンを押してください。少し時間がかかりますが、必要なライブラリ等をインストールします。また、本作業については、ノートブック立ち上げ後の初回のみ実行します。ノートブックの実行：2.設定次に、処理の適用対象を設定します。以下のように、input_dirに先に用意したフォルダへのパスを指定します。またmanifestの値を空にしてください。これにより、input_dirに格納した画像ファイルを対象に処理を実行します。再生ボタンを押して、設定は完了です。ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。完了後は、以下のように、指定した出力フォルダに処理の開始時間に基づくフォルダが作成され、その中に認識結果が保存されます。図表の抽出に失敗してしまう場合もありますが、今回は以下のように、正しく図表を抽出することができました。実行方法：（2）IIIFマニフェストファイルのURLを入力するノートブックの実行：1.初期セットアップこれは先ほどのプロセスと同じです。2回目以降はスキップしてください。ノートブックの実行：2.設定以下のように、manifestに処理対象とするIIIFマニフェストファイルのURLを入力してください。またprocess_sizeに処理対象のcanvas数を指定します。-1を入力すると、マニフェストファイルに含まれるすべてのcanvas（画像）に対して処理を実行します。再生ボタンを押して、設定は完了です。ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。今回の場合、以下のように、まず画像のダウンロードが行われます。 # # 8 # 0 % マ | ニ █ フ █ ェ █ ス █ ト █ が █ 指 █ 定 █ されて | いる 4 場 / 合 5 は、 [ 画 0 像 0 の : ダ 1 ウ 3 ン < ロ 0 ー 0 ド : 0 # 3 # , # 3 . 4 1 s / i t ] その後、抽出処理が始まります。処理対象の画像が多い場合、完了まで時間がかかります。 ...

Google Colabを用いたNDLOCRアプリの実行（Google Driveを用いた画像の入力と結果の保存）

概要前回、Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行方法を共有しました。ただし、上記の方法は手続きが一部面倒で、かつ費用がかかる方法です。本番環境で使用するには適した方法ですが、小規模に、または試験的に使用するにはハードルが高い方法でした。この課題に対して、 @blue0620 さんがGoogle Colabを用いたNDLOCRアプリの実行方法を作成されました。 https://twitter.com/blue0620/status/1519294332159012864 上記のノートブックを使用することにより、簡単に（「ランタイム」>「すべてのセルを実行」からワンクリックで）、かつ無料でOCRを実行することができます。今回は、このノートブックを参考にして、Google Driveを用いた画像の入力と結果の保存までの手続きを含むGoogle Colabの使用方法をまとめましたので紹介します。ノートブック今回作成したGoogle Colabのノートブックには以下からアクセスいただけます。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_folder.ipynb Googleドライブ上に入力画像のフォルダを用意するだけで、OCR処理を実行することができます。基本的な操作方法は、上記のノートブック内の説明をご確認ください。以下、実行例を紹介します。実行方法入力フォルダの準備まず、Google Drive上に画像ファイルを格納したフォルダを作成します。今回は、以下のように、マイドライブに「ndl_ocr > input」というフォルダを作成して、その直下に画像ファイル「image_1.jpg」とフォルダ「dir_1」を作成し、フォルダ「dir1」の中に画像ファイル「image_2.jpeg」を格納しました。ツリーで見ると、以下のような形です。今回作成したプログラムでは、指定した入力フォルダに含まれる画像を再帰的に探索します。ノートブックの実行：1.初期セットアップ先に示した以下のノートブックにアクセスしてください。 https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_ocr_folder.ipynb そして、以下に示す再生ボタンを押してください。少し時間がかかりますが、必要なライブラリ等をインストールします。また、本作業については、ノートブック立ち上げ後の初回のみ実行します。再生ボタンを押した後、「このノートブックに Google ドライブのファイルへのアクセスを許可しますか？」と聞かれるので、「Google ドライブに接続」を押して、許可してください。その後、しばらくの間、再生中のボタンが表示されます。これが完了したら、次のステップに進みます。ノートブックの実行：2.設定次に、OCR処理の適用対象を設定します。入力フォルダ（input_dir）は、上述した「/content/drive/MyDrive/ndl_ocr/input/」としました。出力フォルダ（output_dir）は、「/content/drive/MyDrive/ndl_ocr/output/」としました。このフォルダは事前に作成しておかなくてもかまいません。拡張子（extensions）は、今回は拡張子がjpgとjpegの画像を格納したので、これら二つを設定します。 processは、以下を参考にしてください。 https://github.com/ndl-lab/ndlocr_cli#推論処理の実行ノートブックの実行：3.実行「3.実行」の再生ボタンを押してください。再生ボタンを押した後、以下のように、再生中ボタンが表示されます。完了後は、以下のように、指定した出力フォルダに認識結果が保存されます。入力フォルダの構造を維持する形で出力するようにしています。また、設定において選択したprocessの値をフォルダ名に付与しています。processの値を変えて実行した際、それぞれの出力フォルダが残るようにしています。以下のように、Googleドライブ上で認識結果の保存と確認が可能です。まとめ上記の方法により、Googleドライブ上に格納した画像に対するOCR処理と、その結果の保存を無料で行うことができます。保存した結果を、さまざまな用途に活用することができます。 Google Colabを利用した実行方法を示してくださった @blue0620 さんに感謝いたします。追記 2022.05.02 本ノートブックの改良版であるVersion 2を作成しました。以下の記事も参考にしてください。 ...

Google Cloud PlatformのCompute Engineを用いたNDLOCRアプリの実行

概要 NDLが公開したNDLOCRアプリケーションについて、GCP（Google Cloud Platform）の仮想マシンを用いて実行してみましたので、その備忘録です。本アプリケーションの詳細については、以下のリポジトリをご確認ください。 https://github.com/ndl-lab/ndlocr_cli VMインスタンスの作成 GCPのCompute Engineにアクセスして、画面上部の「インスタンスを作成」ボタンをクリックします。「マシンの構成」の「マシンファミリー」について、「GPU」を選択します。そして「GPUのタイプ」において、今回は最も安価な「NVIDIA T4」を選択します。「GPUの数」は1に設定しました。「シリーズ」については、「n1-standard-2」を選択します。「n1-standard-1」では、以下のようにMemoryErrorが発生してしまいました。次に、「ブートディスク」において、「イメージの切り替え」を選択します。そして推奨された「Deep Learning on Linux」を選択します。この時の注意点として、「サイズ」をデフォルトの50GBから、100GBに変更しました。50GBの場合、no space leftが発生しました。以下は、環境構築が済んだ後の情報ですが、40GB強が使用済みとなるため、余裕を持った「サイズ」にしておくことをお勧めします。 u F u t / t t t / t _ i d m d m m m d m n l e p e p p p e p a e v f v f f f v f k s s / s s s / s a y s s m s d d u t a a r e 1 1 a m 5 _ s a t o r u S 7 1 4 7 5 7 1 1 @ i . . 9 . . . 2 . i z 4 5 2 4 0 4 4 5 n e G G G G M G M G s t a U 8 5 n s . 4 . c e 4 1 7 e d 0 M G 0 0 0 M 0 - 4 A : v 7 1 4 7 5 7 1 1 ~ a . . 3 . . . 1 . $ i 4 5 2 4 0 4 9 5 l G G G G M G M G d f U s - e 0 1 9 0 0 0 5 0 h % % % % % % % % % M / / / / / / / d r d r s b r u e u e u y o u n v n v n s n t / / t e s l f u d h o s e s m c / f e o k c i r n g / r 1 o 0 u 0 p 1 その後、画面下部の「作成」ボタンを押してVMインスタンスの作成を完了します。 ...

Flaskを用いてyolo5モデルを公開するリポジトリのECRとAWS App Runnerでの使用方法

本記事では、AWS App Runnerとyolo5を用いた物体検出APIの構築例について紹介します。 Amazon ECR 以下で公開されている、Flaskを用いてyolo5モデルを公開するリポジトリについて、 https://github.com/robmarkcole/yolov5-flask Amazon ECR（Elastic Container Registry）のパブリックレジストリにイメージを登録しました。 https://gallery.ecr.aws/b8m8i5m3/yolov5-flask 元のリポジトリから一部ソースコードを変更しています。フォークしたリポジトリは以下です。 https://github.com/ldasjp8/yolov5-flask 以下では、本イメージの利用例として、App Runnerでの使用方法を説明します。 AWS App Runner App Runnerにアクセスして、画面右上の「サービスの作成」をクリックします。次の「ソースおよびデプロイ」画面において、以下のように選択します。「コンテナイメージのURI」には、以下を与えてください。 public.ecr.aws/b8m8i5m3/yolov5-flask:latest 次の「サービスを設定」画面において、サービス名を入力し、ポートを5000に変更します。その後の設定はデフォルトのまま進めると、以下の画面に遷移します。 5分から10分程度待つと、「ステータス」が「Running」となったら成功です。「デフォルトドメイン」のドメイン「 https://XXXX.us-east-1.awsapprunner.com/ 」を用いて、以下のURLにアクセスしてください。 https://XXXX.us-east-1.awsapprunner.com/detect?url=https://raw.githubusercontent.com/ultralytics/yolov5/master/data/images/zidane.jpg 以下に示すような物体検出結果のJSONデータが返却されます。まとめ AWS App Runnerを用いて、yolo5を用いた物体検出APIを簡単に構築することができました。 App Runnerを用いたAPI構築の一例として、参考になりましたら幸いです。