字幕付きの音声ファイルをIIIFビューアで表示する機会がありましたので、備忘録です。
国立国会図書館 歴史的音源で公開されている「日本のアクセントと言葉調子(下)」を対象に、OpenAIのSpeech to textを使用しています。文字起こし結果には誤りが含まれていますので、その点はご注意ください。
以下は、Rampでの表示例です。
https://ramp.avalonmediasystem.org/?iiif-content=https://nakamura196.github.io/ramp_data/demo/3571280/manifest.json

以下は、Cloverでの表示例です。
https://samvera-labs.github.io/clover-iiif/docs/viewer/demo?iiif-content=https://nakamura196.github.io/ramp_data/demo/3571280/manifest.json

以下は、Aviaryでの表示例です。こちらについては、残念ながら今回使用したマニフェストファイルの形式では、文字起こしテキストは表示できませんでした。
https://iiif.aviaryplatform.com/player?manifest=https://nakamura196.github.io/ramp_data/demo/3571280/manifest.json

以下、これらのマニフェストファイルの作成方法について紹介します。
mp4ファイルの準備#
以下の記事を参考に、mp4ファイルを取得します。
vttファイルの作成#
OpenAIのAPIを使用して、文字起こしを行います。
マニフェストファイルの作成#
不完全なコードですが、以下のようなプログラムによって、マニフェストファイルを作成します。
ライブラリとして、iiif-prezi3を使用しています。以下の記事も参考にしてください。
まとめ#
動画や音声へのIIIFの応用にあたり、参考になりましたら幸いです。