概要
app要素を含むTEI/XMLファイルに対して、編集距離を算出するプログラムを作成しました。
以下のGoogle Colabからご利用いただけます。
https://colab.research.google.com/github/nakamura196/ndl_ocr/blob/main/編集距離を算出するプログラム.ipynb
XMLファイルをアップロードすると、witness間の類似度を算出します。
例
以下のXMLファイルをアップロードしてみます。
https://tei-eaj.github.io/koui/data/nakamura.xml
結果、以下のようなExcelファイルが得られます。witness間の類似度を一覧できます。
| index | name1 | name2 | distance | ratio |
|---|---|---|---|---|
| 0 | 中村式五十音 | 中村式五十音又様 | 10 | 0.85 |
| 1 | 中村式五十音 | 中村式五十音欠損本 | 7 | 0.8947368421052632 |
| 2 | 中村式五十音又様 | 中村式五十音欠損本 | 8 | 0.868421052631579 |
類似度の算出には、以下を使用しています。
https://pypi.org/project/python-Levenshtein/
まとめ
テキストの比較方法については色々と検討の余地がありますが、witness間の定量的な比較の一例として参考になりましたら幸いです。
参考
以下で紹介している「二つのテキスト間の差分を抽出するプログラム」にも本機能を追加しました。