デフォルト設定のArchivematicaに日本語ファイル名のファイルを入力すると、「ユースケース公募提案書.docx」というファイル名は以下のように変換されます。
yu-suke-suGong_Mu_Ti_An_Shu_.docx
このファイル名変換をカスタマイズする方法について説明します。
ファイル名の変換は以下で行われています。
https://github.com/artefactual/archivematica/blob/qa/1.x/src/MCPClient/lib/clientScripts/change_names.py
具体的には、以下です。
Google Colabでの実行例は以下です。
https://colab.research.google.com/github/nakamura196/000_tools/blob/main/unidecodeを試す.ipynb
カスタマイズ#
今回は、pykakasiを使用してみます。
https://codeberg.org/miurahr/pykakasi
また、DockerでArchivematicaを起動しているとします。以下の記事を参考にしてください。
まず、以下にpykakasiを追記します。
https://github.com/artefactual/archivematica/blob/qa/1.x/requirements-dev.txt
そして、以下のファイルも修正します。
https://github.com/artefactual/archivematica/blob/qa/1.x/src/MCPClient/lib/clientScripts/change_names.py
上記の修正を加えて、Archivematicaを再ビルドした結果、以下のようなファイル名に変換されるようになりました。
yuusukeesukouboteiansho.docx

まとめ#
ファイル名の変換については、METSファイルの中で、以下のように記載されています。
そのため、ファイル名の変換ルールを気にする必要はないかもしれませんが、参考になりましたら幸いです。