概要

これまで、Google Cloud PlatformやGoogle Colabを用いたNDL OCR及びNDL古典籍OCRのチュートリアルを作成してきました。

今回は、Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明します。なお、今回の方法では、実行の際に費用が発生しますのでご注意ください。

Amazon SageMaker Studioの説明は以下です。

ドメインの設定など

ドメインの設定などは以下の記事などを参考にしてください。

今回は以下のように作成済みのユーザープロファイルから「起動」→「Studio」を選択したところから説明します。

ノートブックの起動方法はいくつかありますが、ここでは、「File」→「New」→「Notebook」で起動してみます。

その後、以下のようなダイアログが表示されるため、今回は「ml.g4dn.xlarge」を選択します。

!nvidia-smiを実行すると、Tesla T4が表示されます。

以下のファイルをノートブックをダウンロードし、SageMakerにアップロードしてください。

ノートブックの作成にあたっては、@blue0620さんのノートブックを参考にしています。

上記からの大きな差分として、まず、以下を実行しています。これらを行わないと、ライブラリのインストール時に、error: command 'gcc' failed with exit status 1といったエラーが発生します。

以下のように、OCR処理が実行されます。

実行後は、忘れずにインスタンスの削除を行います。例えば、画面左部の「Running Terminals and Kernels」から「Running Instances」にあるインスタンスをシャットダウンします。

Amazon SageMaker Studioを用いたNDL古典籍OCRの実行方法について説明しました。