Linked Open Dataの概要

Linked Open Data(LOD)とは、Web上で構造化されたデータを相互にリンクさせ、機械的に処理可能な形で公開するための原則と技術の総称です。「リンクト・オープン・データ」と読みます。

従来のWebは、主に人間が読むことを想定したHTML文書のネットワークでした。Webページ同士はハイパーリンクで結ばれていますが、そこに記述されたデータ(人物名、地名、年号など)を機械が自動的に理解し、処理することは困難です。

Linked Open Dataは、この課題に対して、データそのものをWeb上で公開し、データ同士をリンクで結ぶことで解決を図ります。人間が読むWebページの背後に、機械が読めるデータのネットワークを構築するという構想です。これがティム・バーナーズ=リー(Tim Berners-Lee)が提唱した「セマンティックWeb」のビジョンであり、Linked Open Dataはその実現手段です。

筆者はこれまで、さまざまなLinked Dataの実践事例に取り組んできました。たとえば、ORCIDのRDFデータを確認する方法や、Linked Dataを使ったデータ記述の応用例を紹介しています。詳しくはLinked Dataを使ったデータ記述の応用例をご覧ください。

セマンティックWebとLinked Data

セマンティックWebの構想

セマンティックWeb(Semantic Web)は、Webの発明者であるティム・バーナーズ=リーが2001年のScientific American誌の論文で提唱した概念です。現在のWebがドキュメント(文書)のWebであるのに対し、セマンティックWebはデータ(意味)のWebを構築しようとする試みです。

セマンティックWebでは、Web上のデータに意味(セマンティクス)を付与し、機械(ソフトウェアエージェント)がデータの意味を理解して推論や処理を自動的に行えるようにすることを目指します。

セマンティックWeb技術スタック

セマンティックWebは、複数のW3C標準技術から構成される技術スタック(レイヤーケーキとも呼ばれます)として整理されています。

PORSRUUrWDPDRnoLFAFIioSRcf(Q(/oTO(LDdr/nSaIeutc(tRsLohQaI/toleugomeM(XigaroIMcy)yddL))eeln)tifier)

このスタックの中核をなすのがRDF(データモデル)、RDFS/OWL(スキーマ/オントロジー)、SPARQL(クエリ言語)です。本書では、これらの技術を基礎から学んでいきます。

Linked Dataの4原則

2006年、ティム・バーナーズ=リーは「Linked Data」の設計原則として、以下の4つのルールを提示しました。

  1. URIを名前として使う: 物事の識別にURIを使用する
  2. HTTP URIを使う: URIにHTTPプロトコルのURIを使い、人々がその名前を参照(ルックアップ)できるようにする
  3. 有用な情報を提供する: URIを参照した時に、RDFやSPARQLなどの標準技術を用いて有用な情報を提供する
  4. 他のURIへのリンクを含める: 他のデータへのリンクを含めることで、より多くのデータを発見できるようにする

これら4つの原則に従って公開されたデータが「Linked Data」であり、さらにオープンライセンスで公開されたものが「Linked Open Data」です。

筆者は実際に、w3id.orgを用いた永続識別子の取得とURIの設計に取り組んでいます。URIの設計はLinked Dataの基盤であり、詳細はw3id.orgを用いた永続識別子の取得とSnorqlへのリダイレクトで紹介しています。

5つ星オープンデータ

ティム・バーナーズ=リーは、オープンデータの公開品質を評価するための「5つ星スキーム」を提案しています。星の数が多いほど、データの再利用性と相互運用性が高くなります。

条件
オープンライセンスでWeb上に公開されているPDFファイルでの公開
★★構造化されたデータとして公開されているExcel(.xls)ファイルでの公開
★★★非独占的なフォーマットで公開されているCSV、JSONでの公開
★★★★W3C標準(RDF)を使って公開されているRDFデータとしての公開
★★★★★他のデータへのリンクが含まれているLinked Open Dataとしての公開

各段階の詳細

★(1つ星) は、データがオープンライセンスのもとでWeb上に公開されていることを意味します。フォーマットは問いません。スキャンしたPDF文書であっても、オープンライセンスでWeb公開されていれば1つ星です。

★★(2つ星) は、データが構造化された機械可読な形式で公開されていることを求めます。たとえば、統計データをPDFの表ではなくExcelファイルとして公開すれば、プログラムからデータを抽出しやすくなります。

★★★(3つ星) は、特定のソフトウェアに依存しない非独占的(non-proprietary)なフォーマットを使用することを求めます。Excelの代わりにCSV、Wordの代わりにHTMLを使うことで、特定のソフトウェアがなくてもデータを利用できます。

★★★★(4つ星) は、W3Cの標準であるRDF(Resource Description Framework)を使ってデータを公開することを求めます。RDFを用いることで、データに明確な意味付けがされ、URI(Uniform Resource Identifier)によってデータの各要素がグローバルに一意に識別されます。筆者は、ExcelやCSVからRDFへの変換についてExcelからRDFを作成するで具体的な手順を紹介しています。

★★★★★(5つ星) は、自分のデータから他のデータへのリンクを含めることを求めます。これにより、データの利用者は関連する他のデータを辿って、より豊かな情報を得ることができます。これこそがLinked Open Dataの本質です。

LODクラウド

LODクラウド(LOD Cloud)は、Web上に公開されているLinked Open Dataのデータセット群とそれらのリンク関係を可視化した図です。LOD Cloud Diagramとして知られ、lod-cloud.netで最新版を確認できます。

2007年に最初のLOD Cloud Diagramが公開された時点では、わずか12のデータセットしか含まれていませんでしたが、現在では1,500を超えるデータセットが登録されています。データセットは以下のような分野に分類されています。

  • 政府(Government): 各国政府のオープンデータ
  • 出版(Publications): 学術論文、書誌情報
  • ライフサイエンス(Life Sciences): 生物医学データ、ゲノム情報
  • 地理(Geography): 地名、地理空間情報
  • メディア(Media): 音楽、映画、ニュース
  • クロスドメイン(Cross-domain): DBpedia、Wikidata等の汎用データセット
  • ユーザー生成コンテンツ(User-generated Content): SNSデータ等
  • 言語学(Linguistics): 言語資源、辞書

LODクラウドの中心に位置するのがDBpediaとWikidataです。これらはWikipediaから抽出・構造化されたデータであり、多くのデータセットがこれらにリンクを張っています。DBpediaとWikidataは「LODのハブ」としての役割を果たしており、異なるドメインのデータを結びつける接点となっています。

国内の動向

日本においても、Linked Open Dataの取り組みは着実に広がっています。

国立国会図書館(NDL)

国立国会図書館は、書誌データや典拠データをLinked Open Dataとして公開しています。「国立国会図書館のLinked Open Data」では、Web NDL Authorities(国立国会図書館典拠データ検索・提供サービス)を通じて、個人名、団体名、地名、件名などの典拠データをRDF形式で提供しています。各典拠データにはURIが付与されており、SPARQLエンドポイントを通じたデータ取得も可能です。

ジャパンサーチ

ジャパンサーチ(Japan Search)は、国立国会図書館が運営する日本の文化資源の統合ポータルです。全国の図書館、博物館、美術館、公文書館などが公開するメタデータを集約し、横断検索を提供するとともに、SPARQLエンドポイントを通じてLinked Open Dataとしてメタデータを公開しています。筆者はジャパンサーチのSPARQLを活用した記事を多数執筆しており、第8章で詳しく解説します。

学術・研究機関

国立情報学研究所(NII)は、CiNii ResearchにおいてLinked Open Dataの仕組みを活用し、論文・図書・研究データなどの学術情報を相互にリンクした形で提供しています。また、筆者が取り組んでいるGakuNin RDMとDydraを連携したRDFメタデータ管理システムのように、研究データ管理基盤におけるLinked Dataの活用も進んでいます。詳しくはGakuNin RDMとDydraを連携したRDFメタデータ管理システムの開発をご覧ください。

LODの活用事例

筆者は、さまざまなドメインのLODデータセットを実際に活用してきました。たとえば、「教科書の中の源氏物語LOD」を使った古典文学データの探索、学習指導要領LODを使った教育データの分析、Odeuropa(欧州の歴史的な香りに関するLinked Data)の調査などに取り組んでいます。これらの経験を通じて、LODの実践的な価値を実感してきました。

海外の主要なLODデータセット

DBpedia

DBpediaは、Wikipediaの構造化された情報(インフォボックス等)をRDFに変換して公開するプロジェクトです。多言語に対応しており、日本語版DBpedia(ja.dbpedia.org)も存在します。SPARQLエンドポイントを通じてクエリを実行でき、LODクラウドにおけるハブの一つです。

Wikidata

Wikidataは、ウィキメディア財団が運営する自由な知識ベースです。DBpediaがWikipediaからの自動抽出であるのに対し、Wikidataは独立した構造化データベースとして設計されており、コミュニティによるデータの編集・管理が行われています。Wikidata Query Serviceを通じてSPARQLクエリを実行でき、本書では第7章で詳しく取り上げます。

Odeuropa

Odeuropaは、欧州の歴史的文献から香りに関する情報を抽出し、Linked Dataとして構造化するプロジェクトです。SKOS語彙を活用した香りデータのモデリングが特徴的であり、筆者もOdeuropa:歴史的文献から匂いを抽出するLinked Dataの世界Odeuropa Visualization: SKOS語彙とSPARQLを活用した香りデータの可視化プラットフォームで詳しく紹介しています。LODの多様な活用事例として参考になります。

GeoNames・VIAF

GeoNamesは、世界中の地名情報をLinked Open Dataとして公開するサービスです。約1,150万件の地名データが登録されており、各地名にURIが付与されています。

VIAFは、世界各国の国立図書館等が管理する典拠データを統合した仮想的な国際典拠ファイルです。著者名や団体名の典拠をLinked Dataとして提供し、各国の典拠レコードを相互にリンクしています。

LODの利点と課題

利点

データの相互運用性: 共通のデータモデル(RDF)と識別体系(URI)を使うことで、異なる組織が公開したデータを統合的に利用できます。

データの発見可能性: リンクを辿ることで、関連するデータを芋づる式に発見できます。ある人物の情報からその人物の著作、所属機関、関連人物など、Web of Dataを横断的に探索できます。筆者はORCIDのRDFを確認するで、研究者識別子ORCIDのRDFを辿って関連データを発見する実例を紹介しています。

データの永続性と参照可能性: URIによってデータの各要素がグローバルに一意に識別されるため、データの引用や参照が容易です。

標準技術への準拠: W3Cの標準技術(RDF、SPARQL、OWL等)に基づいているため、ベンダーロックインを避け、長期的なデータの持続可能性を確保できます。

課題

学習コストの高さ: RDF、SPARQL、OWL等のセマンティックWeb技術は、従来のWebやデータベース技術に比べて学習コストが高いとされています。本書は、この課題の解消に少しでも貢献することを目指しています。

データ品質の維持: LODとして公開されたデータの品質(正確性、完全性、鮮度)を継続的に維持することは、運用面での大きな課題です。

パフォーマンスの課題: 大規模なRDFデータに対するSPARQLクエリの実行速度は、従来のリレーショナルデータベースに比べて劣る場合があります。クエリの最適化やトリプルストアの選定が重要になります。

まとめ

本章では、Linked Open Dataの概念と全体像を概観しました。LODは単なるデータ公開の手法ではなく、ティム・バーナーズ=リーが構想したセマンティックWebの実現に向けた技術体系です。

  • Linked Dataの4原則に従い、URIで識別されたデータをRDFで記述し、他のデータとリンクさせる
  • 5つ星オープンデータのスキームで、データの公開品質を段階的に向上させる
  • 国内外で多くの機関がLODの公開を進めており、LODクラウドは年々拡大している

次章では、LODの基盤技術であるRDF(Resource Description Framework)のデータモデルを詳しく学びます。

関連記事