概要

app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。

以下のGoogle Colabからご利用いただけます。

https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/編集距離を算出するプログラム.ipynb

XMLファイルをアップロードすると、witness間の類似度を算出します。

以下のXMLファイルをアップロードしてみます。

https://tei-eaj.github.io/koui/data/nakamura.xml

結果、以下のようなExcelファイルが得られます。witness間の類似度を一覧できます。

indexname1name2distanceratio
0中村式五十音中村式五十音又様100.85
1中村式五十音中村式五十音欠損本70.8947368421052632
2中村式五十音又様中村式五十音欠損本80.868421052631579

類似度の算出には、以下を使用しています。

https://pypi.org/project/python-Levenshtein/

まとめ

テキストの比較方法については色々と検討の余地がありますが、witness間の定量的な比較の一例として参考になりましたら幸いです。

参考

以下で紹介している「二つのテキスト間の差分を抽出するプログラム」にも本機能を追加しました。