以前、Hugging Face SpacesとYOLOv5モデル(NDL-DocLデータセットで学習済み)を使った推論アプリの構築を行いました。
今回は上記のアプリを一部変更して、以下の差分に示すように、JSON出力を追加しました。
これにより、以下のノートブックのように、返却結果を利用した処理が可能になりました。
https://github.com/nakamura196/ndl_ocr/blob/main/GradioのAPIを用いた物体検出例.ipynb

他により良い方法があるかと思いますが、参考になりましたら幸いです。