Azure OpenAI GPT-4 vs Document Intelligence: 日本語縦書きOCRの比較検証

概要 Microsoft Azureが提供する2つのOCRサービス(Azure OpenAI GPT-4 VisionとAzure Document Intelligence)を使用して、日本語の縦書き原稿用紙のOCR処理を実施し、その結果を詳細に比較検証しました。 検証対象画像 画像ソース : Canvaテンプレート(400字詰め原稿用紙) URL : https://www.canva.com/ja_jp/templates/EAFbqUoH7P8/ 画像の特徴 : 20×20の400字詰め原稿用紙 縦書きレイアウト 薄いグリッド線(マス目) タイトル欄と本文欄の区別 正解データ(Ground Truth) 原 佐 原 こ 稿 藤 稿 の の ち 用 テ タ あ 紙 キ イ き に ス ト 書 ト ル く を テ 使 キ 用 ス す ト る が 場 入 合 り は ま 、 す 日 。 本 作 語 文 の や 全 小 角 論 を 文 使 を う 作 こ っ と た で り マ 、 ス 小 に 説 あ を っ 書 た い 文 た 字 り を な 打 ど つ に こ ご と 活 が 用 で く き だ ま さ す い 。 。 手 書 き で 使 用 し た い 場 合 は 、 こ の テ キ ス ト を 削 除 し 、 印 刷 し て ご 使 用 く だ さ い 。 1. Azure OpenAI GPT-4.1 による認識結果 認識されたテキスト 原 佐 原 こ 稿 藤 稿 の の 用 テ タ ち 紙 キ イ あ に ス ト き 書 ト ル く を テ 使 キ 用 ス す ト る が 場 入 合 り は ま 、 す 日 。 本 作 語 文 の や 全 小 角 論 を 文 使 を う 作 こ っ と た で り マ 、 ス 小 に 説 あ を っ 書 た い 文 た 字 り を な 打 ど つ に こ ご と 活 が 用 で く き だ ま さ す い 。 。 手 書 き で 使 用 し た い 場 合 は 、 こ の テ キ ス ト を 削 除 し 、 印 刷 し て ご 使 用 く だ さ い 。 評価 GPT-4.1は縦書きの原稿用紙に対して以下の特徴を示しました: ...

2025年9月29日 · 3 分 · Nakamura

LLMによる原稿用紙OCR性能比較:縦書き日本語の認識精度検証

はじめに 本記事では、実際の原稿用紙画像を用いて 主要LLMモデルのOCR性能を比較検証しました。多くのOCRベンチマークが印刷文書や横書きテキストを対象とする中、日本独自の縦書き原稿用紙という特殊なフォーマット での認識精度を評価することで、各モデルの日本語文書理解能力をより実践的に検証しています。 本検証の特徴 原稿用紙という日本固有のフォーマットを使用 :マス目に収められた文字、縦書きレイアウト、特有の余白構成など、複雑な要素を含む画像での検証 実用シーンを想定 :作文、小説、論文など、実際の執筆場面で使用される原稿用紙での性能評価 最新モデルの網羅的比較 :GPT-5、GPT-4.1、Gemini 2.5 Pro、Claude Opus 4.1、Claude Sonnet 4という最新モデルを同一条件で比較 検証概要 使用画像 画像ソース : Canvaテンプレート(400字詰め原稿用紙) URL : https://www.canva.com/ja_jp/templates/EAFbqUoH7P8/ 画像の特徴 : 20×20の400字詰め原稿用紙 縦書きレイアウト 薄いグリッド線(マス目) タイトル欄と本文欄の区別 検証条件 使用プロンプト : 「OCRして」(全モデル共通) パラメータ : 各モデルのデフォルト設定 実行時期 : 2025年9月 正解テキスト 原 佐 原 こ 稿 藤 稿 の の 用 テ タ ち 紙 キ イ あ に ス ト き 書 ト ル く を テ 使 キ 用 ス す ト る が 場 入 合 り は ま 、 す 日 。 本 作 語 文 の や 全 小 角 論 を 文 使 を う 作 こ っ と た で り マ 、 ス 小 に 説 あ を っ 書 た い 文 た 字 り を な 打 ど つ に こ ご と 活 が 用 で く き だ ま さ す い 。 。 手 書 き で 使 用 し た い 場 合 は 、 こ の テ キ ス ト を 削 除 し 、 印 刷 し て ご 使 用 く だ さ い 。 評価方法 本記事の精度スコアは、文字認識の正確性、レイアウト理解、文章構造の保持などを総合的に評価した主観的なスコア です。実用的な観点から、各モデルの強みと課題を分かりやすく数値化しています。 ...

2025年9月27日 · 6 分 · Nakamura

LLMに関するメモ

概要 LLMに関するツールについて、備忘録です。 LangChain https://www.langchain.com/ 以下のように説明されていました。 LangChain is a composable framework to build with LLMs. LangGraph is the orchestration framework for controllable agentic workflows. LlamaIndex https://docs.llamaindex.ai/en/stable/ 以下のように説明されていました。 LlamaIndex is a framework for building context-augmented generative AI applications with LLMs including agents and workflows. LangChain と LlamaIndex gpt-4oの回答は以下でした。 LangChainとLlamaIndexはどちらも、LLMs(大規模言語モデル)を利用したアプリケーション開発を支援するフレームワーク 簡単に調べてみたところ、RAG(Retrieval-Augmented Generation)を行う際には、LlamaIndexがより簡単に使用できるようでした。 Ollama https://github.com/ollama/ollama 以下のように説明されていました。 Get up and running with Llama 3.2, Mistral, Gemma 2, and other large language models. ...

2024年11月29日 · 6 分 · Nakamura

mdx.jpの1GPUパックとOllamaを使ってローカルLLMを実行する

概要 mdx.jpの1GPUパックとOllamaを使ってローカルLLMを実行する機会がありましたので、備忘録です。 https://mdx.jp/mdx1/p/guide/charge 参考 以下の記事を参考にしました。 https://highreso.jp/edgehub/machinelearning/ollamainference.html モデルのダウンロード ここでは、llama3.1:70bを対象にします。 ダウンロード完了後、以下のように選択可能となります。 使用例 以下の『渋沢栄一伝記資料』を使用します。 https://github.com/shibusawa-dlab/lab1 APIの利用 以下に記載がありました。 https://docs.openwebui.com/api/ 以下でJWTトークンとは別に、APIキーを発行します。 以下が実行例です。 i i t 朝 A u h } t d } r # p p m m e 来 P r e h a e r r p p x 少 I l a r t s レ i i o o t シ K d e a p ス n n r r ク E = e " " s " " ] o ポ t t t t = 風 Y r A C = m m n ン ( ( 邪 " s u o = o e s ス r r r j 気 = h t n { d s e の e e e s ナ t = h t 3 e s { } 表 s s q o ' ル " t o e 0 l a = 示 p p u n 六 ニ s p { r n 0 " g o o e 月 ヨ k : i t : e r n n s 十 リ - / z - s " " e s s t 四 晏 x / a T " " r c q e e s 日 起 x l t y l : o o u . . 、 x o i p l l n e s j 日 x c o e a [ e t s t s 八 " a n " m " e t a o 晴 時 l " : a : n s t n h : 3 t . u ( 風 洗 o " . " " p s ) ナ 面 s f a 1 u : o _ ) ク ヲ t " p : s s c シ ナ : B p 7 e f t o テ ス 8 e l 0 r " ( d 暑 、 0 a i b " 次 u e 気 後 8 r c " , の r ) 昨 、 0 e a , テ l 日 六 / r t キ , ニ 孫 a i ス 比 王 p { o ト h シ 宮 i A n は e テ ノ / P / 渋 a 少 神 c I j 沢 d ク 官 h K s 栄 e 加 又 a E o 一 r フ ハ t Y n の s ル 同 / } " 日 = ヲ 志 c " 記 h 覚 社 o , の e フ 員 m 一 a p 部 d 安 l で e 藤 e す r t 。 s 氏 i テ , 等 o キ 来 n ス d 訪 s ト a ス " を t 、 { a t = 十 h j 時 r s e o 大 s n 阪 } . 支 字 d 店 程 u 長 度 m に p 野 要 s 口 約 ( し d 、 て a く t 神 だ a 戸 さ ) い ) 杉 。 田 要 約 、 文 の 名 み 古 を 屋 改 行 清 せ 水 ず に 及 返 し 西 て 京 く だ 支 さ 店 い 長 。 句 中 読 川 点 を 、 適 其 宜 他 使 用 小 し 林 て く 、 だ さ 片 い 野 。 \ 、 n \ 前 n 原 { t 等 e ノ x 諸 t 氏 } ヲ " 伴 ヒ 嵐 山 ニ 抵 リ 、 三 軒 屋 ニ テ 午 飧 シ 、 船 ヲ 浮 ヘ テ 大 江 川 《 ( 堰 ) 》 ヲ 遡 ル 、 船 中 囲 碁 ノ 興 ア リ 、 嵐 山 ノ 緑 葉 少 シ ク 繁 茂 ニ 過 ル モ 両 岸 ニ ハ 山 花 咲 乱 レ テ 頗 ル 風 致 ア リ 、 午 後 四 時 過 玉 川 楼 ニ 帰 宿 ス 、 今 朝 、 尾 崎 司 法 大 臣 ノ 秘 書 黒 田 氏 来 ル 、 又 、 林 和 太 郎 氏 ( 桂 氏 ノ 父 ) 来 話 ス 、 午 前 十 時 ヨ リ 各 支 店 主 任 ト 共 ニ 嵐 山 ニ 抵 リ 三 軒 屋 ニ テ 午 飧 ス 、 後 、 大 江 川 《 ( 大 堰 川 ) 》 ニ 船 ヲ 浮 ヘ 、 午 後 四 時 帰 宿 ス 、 後 、 玉 川 楼 ニ 於 テ 晩 飧 会 ヲ 開 ク 、 種 々 ノ 余 興 ア リ 、 夜 十 時 散 会 ス 、 中 井 三 郎 兵 衛 氏 モ 来 会 ス ' ' ' 結果、以下が得られました。ただし、結果が返却されるまでに60s弱かかってしまいました。 ...

2024年11月4日 · 7 分 · Nakamura