PDFを対象に、Google Cloud Vision APIを使って、透明テキスト付きPDFを作成する機会がありましたので、備忘録です。
以下、simpleで検索した例です。

今回は単一ページから構成されるPDFを対象とします。
画像の作成#
OCRの対象とする画像を作成します。
デフォルトの設定だとボヤけた画像ができてしまったので、解像度を2倍に設定し、また後述するプロセスで、解像度を考慮した位置合わせを実施しています。
以下をインストールします。
Google Cloud Vision API#
出力された画像を対象に、Google Cloud Vision APIを適用します。

出力結果として得られるJSONファイルを./google_ocr.jsonといった名前で保存します。
そして、以下のようにOCR結果を取得します。
透明テキストの作成#
以下のスクリプトにより、PDFに反映します。ポイントとして、「フォントサイズを調整して収まるか確認」する必要がありました。
以下で公開されているPDFを対象にします。
https://pdfobject.com/pdf/sample.pdf
結果、以下のように透明テキスト付きPDFを作成することができました。

まとめ#
特定のページのみOCRが必要な際などに、本記事が参考になれば幸いです。