概要

テキストマークアップツールの一つである「CATMA」の入門的な使い方を紹介します。

https://catma.de/

アノテーションの結果はTEIフォーマットでエクスポートできるため、他のシステムでも活用可能な相互運用性の高いデータを作成できると思われます。また実験的な段階とのことですが、JSON APIも提供されています。これを使うことで、アノテーションはCATMAで行い、その結果をAPIを経由して、他のシステムで利用する、という構成も考えられます。

上記は未検証の内容を含む、一部発展的な取組みになりますが、本記事では、CATMAの基本的な使い方を備忘録として残します。

使い方

以下にアクセスして、「Sign Up」を行います。Googleのアカウントでログインするとスムーズかと思います。

https://app.catma.de/catma/

ログイン後の画面は以下です。

プロジェクトの作成

「Create New Project」から新しいプロジェクトを作成します。

ドキュメントの登録

以下のように、「+」ボタンを押して、「Add Document」を行います。

今回は以下のような単純なtxtファイルを試します。

その後の選択肢は基本的にそのままでOKですが、以下のように、言語は「Japanisch」にしておくとよいかもしれません。

以下のように、exampleというドキュメントと、example Default Annotaitonsというアノテーションを保存するためのコレクションが作成されます。

タグセットの作成

次に、タグセットを作成します。左のメニューから「Tags」を選択して、画面右上の「+」ボタン、「Add Tagset」を選択します。

今回は「はじめてのタグセット」という名前をタグセットを作成しました。さらに、画面右上の「+」ボタンから、「Add Tag」を選択します。

そして、以下のように、タグの追加対象となるタグセットを選択して、今回は、「persName」というタグを追加してみます。「プロパティ」などを追加設定できますが、今回はスキップします。

アノテーション

左のメニューから、「Annotate」に移動して、以下のように、アノテーション対象のドキュメントとして「example」、タグセットとして「はじめてのタグセット」を選択します。

アノテーション付与対象の選択し、画面右から付与対象のタグを選択します。先のタグの追加画面で設定した色の下線が引かれます。

エクスポート

左のメニューから、「Project」に戻り、「example Default Annotations」を選択して、メニューアイコンから「Export Documents & Collections」を選択します。

zipファイルがダウンロードされ、元テキストであるtxtファイルと、アノテーション結果を格納したxmlファイルが展開されます。

xmlファイルは以下のようなTEIのフォーマットで出力されます。<encodingDesc>に使用したタグ、具体的にはpersNameが示されます。

また、<body>以下に、何文字目から何文字目に対して、どのタグが付与されているか、という情報が格納されます。

<T/ETIE<<Ixt/t/>metetliexenH<<it<<xsef/e/H>b/f/t=aifneeobsf>"dlicnadosheelo<cdy<dx>trDedf/oe>a/ymt>eDisfdrba>lpsendsi>b::csgD<dnt<<<>i/>cDef/Dgyps/pd/>ecsfeDptest=wslDsceerger"wce<Dls=<gCw>xcfe>c"tap>tA.mlsc>cantaTtlDlararrMe:xe>tg=gAiimsme"te_-dlcat#atEc=:r"=Cr=1."i>>"Ag"AoTdpDTeDEr_=e_Mt_4g8"rFA=F8/7CsB_"BBn6AN5ED5FsETa81_8-/9MmAAFA91BAe2EB20.9_<B45B30FB/3883B"-Df-BA--BAsEF2E4x44DC-BC5m11e19311lD9s50-5B:-4c-3E--l46r4BC48aD->2-127nD0B45B2g7785-83=-E-14--"BF8B28Fe5-D-BDAn44A88AD"A0C7-C8>-3-28-FAEE3DED2-9-A912BAFCA85D2A-22AE8DE8C79B89BF5-3FA3EADDD2D"821181FEF8BFt56D23Dy00CCDCp"C#F1#e4cEFc=n8h"Dh"=Da>CaC"0r#rA9=c=T30h8M",a,A5r1_n"=3B=5"D"t,A2y8t40p"y12ep92=te4b-"y=651ip"-11nei0b-c=n791l"cE80uilF6Tsnu-60ics4b2oli09:nuo360"snEf5/i"-f:>o/B31n>D89"Ef./900>-50D902b+E706b1050Cb043"88Dbt08y93p38e"3=>d"fCcA5T3MfA2_7BcD"A>41946-07EF-403E-BDE9-D2E60C48D093">

上記の構造化データを使って、さまざまな活用ができそうです。

JSON API

プロジェクトの画面右上のメニューから、「Share project resources」を選択します。

「Enable」にすることで、JSON APIが有効になります。

結果、以下のようなJSONにアクセスすることができ、中村覚という文字列に対して、persNameというタグが付与されていることを確認できます。

{}"]"e,ex{}xppo"]"}"]ora,s,trtn{}o"""""a{}tDnubcistgIoo""""]""""rordiis"""""]dcteipp,ssttcdc"zt"cinpp"uandhrotaaey3:el:odaar:mtd"rouaggDU2"el"mroeiO:aprrINorb":"[o:eep"nofsectdaclCD:u"neEtnf"ereO"mu"h_3r":tr_sssC"tDf:em:eF5""CItA""eA:iof"ecB,e:A"di8::tTecs":n"k5xTp"e1"M"sueCths8a"Me:s4[[:A"mtA""tuAm#Ar"C_:e"Tp:tm2pd_s":D8En:Mep"BldBN"0,1"[tAr{s:3e7Da,[CA,I5_s:-"9Am-Ed,BN/"Ed4e14"Da/4Cf1"88:Amaa1"9,6B4epe5,47F"1"p2-6--D9.94-49_4ce2050F6abB743B-t98EAB50m"-F--87a,8-84AE.D4B52FdA0A1B-eC3AB34/-E---0cE-48E3a9B47CEtAD321-m2E535Ba895--D/B-BF4Ea3D9A29pD23DB-i1EE88D/F63F-2pD05D8ErCCE1D6e"4"8A0/,82CCbDC-4e0FE8t9E9Da3"A0/",29c,83aB"t3,mDa1_F8D3C9"4,b1dd-c46a-45c5-a57f-1762722157ff/doc/d_fb58a2b3-ec15-42b8-8dac-e9a28b3d1fdc",

実験的なサービスではありますが、外部システムとの連携などに活用できそうです。

まとめ

CATMAの基本的な使い方について説明しました。

今回はtxtファイルを登録しましたが、TEIでマークアップ済みのxmlファイルを登録することもできます。

参考になりましたら幸いです。