概要 ndl-labでは、以下の図表自動抽出プログラムが公開されています。
https://github.com/ndl-lab/tensorflow-deeplab-v3-plus
今回は上記のプログラムについて、Google Driveを用いた画像の入力と結果の保存までの手続きを含むGoogle Colabの使用方法をまとめましたので紹介します。
ノートブック 今回作成したGoogle Colabのノートブックには以下からアクセスいただけます。
https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb
Googleドライブ上に入力画像のフォルダを用意することで、図表の自動抽出処理を実行することができます。
基本的な操作方法は、上記のノートブック内の説明をご確認ください。以下、実行例を紹介します。
本ノートブックでは、(1)入力フォルダを準備する方法と、(2)IIIFマニフェストファイルのURLを入力する方法の2つがあります。それぞれについて説明します。
実行方法:(1)入力フォルダの準備 入力フォルダの準備 まず、Google Drive上に画像ファイルを格納したフォルダを作成します。今回は、以下のように、マイドライブに「ndl_deeplab > input」というフォルダを作成して、その直下に画像ファイルを格納しました。
ノートブックの実行:1.初期セットアップ 先に示した以下のノートブックにアクセスしてください。
https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/ndl_deeplab.ipynb
そして、用意されている2つの再生ボタンを押してください。少し時間がかかりますが、必要なライブラリ等をインストールします。また、本作業については、ノートブック立ち上げ後の初回のみ実行します。
ノートブックの実行:2.設定 次に、処理の適用対象を設定します。以下のように、input_dirに先に用意したフォルダへのパスを指定します。またmanifestの値を空にしてください。これにより、input_dirに格納した画像ファイルを対象に処理を実行します。
再生ボタンを押して、設定は完了です。
ノートブックの実行:3.実行 「3.実行」の再生ボタンを押してください。
完了後は、以下のように、指定した出力フォルダに処理の開始時間に基づくフォルダが作成され、その中に認識結果が保存されます。
図表の抽出に失敗してしまう場合もありますが、今回は以下のように、正しく図表を抽出することができました。
実行方法:(2)IIIFマニフェストファイルのURLを入力する ノートブックの実行:1.初期セットアップ これは先ほどのプロセスと同じです。2回目以降はスキップしてください。
ノートブックの実行:2.設定 以下のように、manifestに処理対象とするIIIFマニフェストファイルのURLを入力してください。
またprocess_sizeに処理対象のcanvas数を指定します。-1を入力すると、マニフェストファイルに含まれるすべてのcanvas(画像)に対して処理を実行します。
再生ボタンを押して、設定は完了です。
ノートブックの実行:3.実行 「3.実行」の再生ボタンを押してください。
今回の場合、以下のように、まず画像のダウンロードが行われます。
# # 8 # 0 % マ | ニ █ フ █ ェ █ ス █ ト █ が █ 指 █ 定 █ さ れ て | い る 4 場 / 合 5 は 、 [ 画 0 像 0 の : ダ 1 ウ 3 ン < ロ 0 ー 0 ド : 0 # 3 # , # 3 . 4 1 s / i t ] その後、抽出処理が始まります。処理対象の画像が多い場合、完了まで時間がかかります。
...