「SAT大蔵経DB 2018」で公開されているテキストの分析例

概要

「SAT大蔵経DB 2018」は以下のように説明されています。

https://21dzk.l.u-tokyo.ac.jp/SAT2018/master30.php

このサイトは、SAT大蔵経テキストデータベース研究会が提供するデジタル研究環境の2018年版です。
SAT大蔵経テキストデータベース研究会は、2008年4月より、大正新脩大藏経テキスト部分85巻の全文検索サービスを提供するとともに、各地のWebサービスとの連携機能を提供することにより、利便性を高めるとともに、Webにおける人文学研究環境の可能性を追求してきました。
2018年版となるSAT2018では、近年広まりつつある機械学習の技術と、IIIFによる高精細画像との連携、高校生でもわかる現代日本語訳の公開及び本文との連携、といった新たなサービスに取り組んでみました。また、本文の漢字をUnicode10.0に対応させるとともに、すでに公開していたSAT大正蔵図像DBの機能の大部分も統合いたしました。ただし、今回は、コラボレーションを含む仕組みの提供という側面もあり、今後は、この輪組に沿ってデータを増やし、より利便性を高めていくことになります。
当研究会が提供するWebサービスは、さまざまな関係者が提供するサービスや支援に依拠しています。SAT2018で新たに盛り込んだサービスでは、機械学習及びIIIF対応に関しては一般財団法人人文情報学研究所、現代日本語訳の作成に関しては公益財団法人全日本仏教会の支援と全国の仏教研究者の方々のご協力をいただいております。
SAT2018が、仏教研究者のみなさまだけでなく、仏典に関心を持つ様々な方々のお役に立つことを願っております。さらに、ここで提示されている文化資料への技術の適用の仕方が、人文学研究における一つのモデルになることがあれば、なお幸いです。

今回は、上記のDBが公開するテキストデータを対象として、簡単な分析を試みます。

説明

以下の「T0220 大般若波羅蜜多經」のテキストを対象にします。

方法

テキストデータの取得

ネットワークを確認したところ、以下のようなURLでテキストデータを取得することができました。

https://21dzk.l.u-tokyo.ac.jp/SAT2018/satdb2018pre.php?mode=detail&ob=1&mode2=2&useid=0220_,05,0001

0220_,05,0001の部分について、05を06に変えると6巻のデータが取得できました。また、末尾の0001を0011に変更すると、0011の前後を含むテキストが取得できました。

この傾向を踏まえて、以下のようなプログラムを実行しました。

上記の処理により、HTMLファイルをダウンロードすることができます。

HTMLファイルの解析

以下のプログラムを実行し、IDごとのテキストを取得します。

結果、以下のようなJSONデータが得られます。

分析例

文字の出現頻度を分析してみます。

結果、以下のような結果が得られました。前のステップでHTMLタグなどを完全に除去できていないため、正確な結果ではありませんが、どのような文字がよく使われているのかを概観することができます。

まとめ

「SAT大蔵経DB 2018」で公開されているテキストに対して、ごく簡単な分析例を紹介しました。

本DBの公開に関わるすべての方々に感謝いたします。

概要#

説明#

方法#

テキストデータの取得#

HTMLファイルの解析#

分析例#

まとめ#

概要

説明

方法

テキストデータの取得

HTMLファイルの解析

分析例

まとめ