セマンティックWebとリンクトデータ

セマンティックWebとリンクトデータ

  • 兼岩 憲 電通大教授 博士(情報科学)

データの意味を扱うRDF,共通語彙,リンクトデータ,SPARQLの最新技術を解説した。

ジャンル
発行年月日
2017/02/20
判型
A5
ページ数
240ページ
ISBN
978-4-339-02869-0
  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介
  • 書籍紹介・書評掲載情報

セマンティックWeb は,人が読むドキュメントから機械が意味を解読できる構造化データへ拡張させた未来のWebである。本書では,データの意味を扱うRDF, 共通語彙,リンクトデータ,SPARQLの最新技術を解説する。

セマンティックWebは,未来のWebとして,現在のドキュメント中心のWebを本質的に拡張して「データ中心」のWebを実現する構想である.具体的には,Webドキュメントを人が読むという従来の枠組みを超えて,構造化されたWebデータを機械が読んで処理するWebデータ空間(データのWebと呼ぶ)が構築される.それにより,増大するWeb上で意味的に融合された膨大な知識群が出現しコンピュータの知能を飛躍的に高めるであろう.

リンクトデータは,データのWebを実現する上での最も重要な要素である.HTMLによる従来Webではドキュメントがハイパーリンクでつながっているが,データのWebはリンクトデータ(コンピュータが解釈できる構造化データ)によって「もの」や「こと」(これらをリソースと呼ぶ)を意味的リンクでつなげる.現在,セマンティックWeb技術によって多種多様なデータセットがリンクトデータとして公開されている.

Webの発明者ティム・バーナーズ=リーの構想から始まったセマンティックWebは,その実現のために多くの関連技術が提案されている.従来のWeb技術と同じように,W3C(WWWコンソーシアム)の標準化団体によって基本技術の普及が促されている.W3Cの標準化では,多くの専門家が参加することで従来のWeb 技術との整合性を保ちながら仕様が策定されている.その中でも本書で紹介するRDF,RDF SchemaやSPARQLなどは,セマンティックWebの入門としてまず学ばなければならない.

本書ではRDFデータ,共通語彙やオントロジーを説明する際に,(自作の例よりも)Webで公開されている実データを使うように心掛けた.これはかなりたいへんな作業であったが,実データの存在はリンクトデータの有用性に説得力を与えてくれる.実データを見ると,よく使われる語彙とそうでない語彙がある.これは使われるものだけが生き残るという,いかにもWebらしい技術の普及ともいえる.現在のWebからは想像もできないが,Webの黎明期には限られたWebページしかなく誰が作成していくのか心配されていたが,現在その心配は無用である.同様に,すでにリンクトデータがWeb上に膨大に存在することは,かつてのWebと同じようにデータのWebが普及段階に入る証である.本書の構成は,以下のとおりである.本書ではWebの基本技術から始まって,その延長線上においてセマンティックWebの基幹技術を説明していく.1章では,セマンティックWebに対する背景や目的,データのWeb,オントロジー,セマンティックス(意味論)や巨大データベースに関して言及する.また,リンクトデータをはじめとするセマンティックWeb技術の応用例について,RichSnippets,ナレッジグラフやIBMワトソンを簡単に説明する.

2章では,インターネット環境においてHTML(ハイパーリンク),HTTP,URLの三つの要素から実現される従来のWeb技術について丁寧に説明する.その後,Web上でデータを記述するためのXMLやJSONのデータ形式について述べ,XMLデータベースの技術を説明する.

3章では,Web上でリソースとその属性,リソース間の関係を記述するためのRDF(resource description framework)の技術を詳しく説明する.RDFはリソースに関して記述するリンクトデータのデータモデルであり,セマンティックWebの中核技術である.まずはRDFデータモデルの基本的概念を説明し,その後にXMLやJSONなどによるRDFのデータ形式を解説する.

4章では,セマンティックWebの共通語彙をいくつか紹介する.人のネットワークを記述するFOAF語彙,知識構造を記述するSKOS語彙,Webメタデータを記述するDC語彙を説明する.さらに,ビジネス,e–コマース,ソーシャルネットワークの共通語彙についても述べる.

5章では,RDFによって作成されたリンクトデータの実例を紹介する.さまざまな専門分野のリンクトデータが存在し,それはデータのWebを実現しているコンテンツそのものである.LODプロジェクトにおいて多くのリンクトデータが公開されおり,クロスドメイン,地理,マスメディア,図書,医療などのリンクトデータを詳細に説明する.

6章では,関係データベースのSQLにも似たRDFデータを検索するクエリ言語SPARQLの仕様を説明する.SPARQLクエリの実例として,ベンチマークで使われるクエリ文を用いて記述方法と検索プロセスを述べる.加えて,SPARQLを利用する際に,RDFデータを大量に蓄積しかつ高速に検索する役割を担うRDFデータストアについても言及する.

本書は,読者によって以下のような順序で読み進むことを想定している.
Web技術の基本から勉強する方: 大学生などこれからWeb技術を勉強する読者は,1章→2章→3章→6章の順で読むことをお勧めする.1章を軽く読んだ後に,2章でWebの基本技術について理解を深める.その後に,3章と6章でセマンティックWebの専門技術について読み進めてほしい.
セマンティックWeb技術のみ勉強する方:すでにWebの基本技術について理解している読者は,2章を飛ばして1章→3章→4章→5章→6章の順で読んでも構わない.3章がセマンティックWeb技術の中核であり,4章で共通語彙,5章でリンクトデータ,6章でクエリ検索について学ぶ.
リンクトデータの実例に関心がある方: セマンティックWebやオープンデータの専門家でリンクトデータの実例について特に関心がある場合は,4章と5章だけ読んでもよい.これらの章では,他書では見られない共通語彙やリンクトデータの内容をページが許すかぎり詳細に説明している.
最後に,本書によってセマンティックWeb技術の理解が深まり多くの方が未来のWeb構想に参加し,Webの発展に寄与できれば幸いである.本書の出版にあたり,武田英明教授(国立情報学研究所),神崎正英氏からは専門家ならではの有益なコメントを頂いた.溝口理一郎教授(北陸先端科学技術大学院大学)には共同研究を通してオントロジーの知識を授かった.この場を借りてお礼申し上げたい.また,本書出版の機会を与えて下さったコロナ社に感謝する.

2016年12月 兼岩 憲

1. セマンティックWebとは
1.1 データとセマンティクスによるWeb空間
 1.1.1 データのWeb
 1.1.2 オントロジーと共通語彙
 1.1.3 セマンティクス(意味論)
 1.1.4 巨大データベースとWeb
1.2 セマンティックWebの応用
 1.2.1 リンクトデータ
 1.2.2 RichSnippets
 1.2.3 ナレッジグラフ
 1.2.4 IBMワトソン
 1.2.5 ライフサイエンス

2. Webとデータ
2.1 Web技術
 2.1.1 インターネット
 2.1.2 URLとURI
 2.1.3 HTTP
 2.1.4 ハイパーテキストとマークアップ
 2.1.5 HTML
2.2 Webデータ技術
 2.2.1 XML
 2.2.2 DTD
 2.2.3 整形式XMLと妥当XML
 2.2.4 XMLSchema
 2.2.5 JSON
2.3 XMLデータ抽出とXMLデータベース
 2.3.1 XPath
 2.3.2 XQuery

3. セマンティックWeb技術とRDF
3.1 データモデリングとメタデータ
 3.1.1 関係データベースの欠点
 3.1.2 セマンティックデータモデル
3.2 RDFデータモデル
 3.2.1 RDFの特徴と必要性
 3.2.2 RDFグラフ
3.3 RDFシリアライズ
 3.3.1 N–Triples
 3.3.2 N3とTurtle
 3.3.3 RDF/XML
 3.3.4 JSON–LD
3.4 RDF(S)語彙
 3.4.1 基本語彙
 3.4.2 オントロジー記述の語彙
 3.4.3 リストや言明の語彙
 3.4.4 クラス語彙
 3.4.5 RDF/XMLで用いる語彙
3.5 セマンティックマークアップ
 3.5.1 独立したRDFデータの付与
 3.5.2 RDFデータのHTMLへの埋込み

4. セマンティックWebの共通語彙
4.1 FOAF
 4.1.1 人,組織やものを表す語彙
 4.1.2 個人情報を表す語彙
 4.1.3 人や組織の文書などを示す語彙
 4.1.4 社会ネットーワークを構成する語彙
4.2 SKOS
 4.2.1 概念を説明する語彙
 4.2.2 概念間の関係を定義する語彙
 4.2.3 スキーマを定義する語彙
 4.2.4 スキーマ間で二つの概念をリンクする語彙
4.3 DC
 4.3.1 DCメタデータの基本要素
 4.3.2 DCMIメタデータの基本要素
 4.3.3 DCMIメタデータの拡張要素
4.4 vCard
 4.4.1 名刺情報に関する基本クラス語彙
 4.4.2 名刺情報を記述するプロパティ語彙
 4.4.3 構造化された属性を示すプロパティ語彙
4.5 Schema.org
 4.5.1 ものに関するクラス階層
 4.5.2 ものに関するプロパティ語彙
 4.5.3 データ型階層
4.6 GoodRelations
 4.6.1 eコマースの基本クラス語彙
 4.6.2 製品に関するクラスとプロパティ
 4.6.3 開店時間に関するクラスとプロパティ
 4.6.4 支払いに関するクラスとプロパティ
 4.6.5 顧客に関するクラスとプロパティ
4.7 VoID
 4.7.1 データセットに関するクラス
 4.7.2 データセットに関するプロパティ
 4.7.3 リンクセットのクラスとプロパティ
4.8 OGP
 4.8.1 基本プロパティ語彙
 4.8.2 その他のプロパティ語彙

5. リンクトデータ
5.1 リンクトデータとは
5.2 リンクトデータの実現
 5.2.1 URIによる名前づけ
 5.2.2 RDFによるリンクトデータの作成
 5.2.3 URIへのアクセス
 5.2.4 リンクされたデータ
5.3 LODプロジェクト
 5.3.1 百科事典・クロスドメインデータ
 5.3.2 地理データ
 5.3.3 マスメディアデータ
 5.3.4 公共・政府データ
 5.3.5 図書館・博物館データ
 5.3.6 オントロジーデータ
 5.3.7 医療・生命科学データ
 5.3.8 日本版LODプロジェクト

6. SPARQL
6.1 クエリ形式
 6.1.1 トリプルパターン
 6.1.2 SELECT
 6.1.3 CONSTRUCT
 6.1.4 DESCRIBE
 6.1.5 ASK
6.2 SPARQLクエリの記述例
 6.2.1 変数クエリ
 6.2.2 ORDERBY,LIMIT,OFFSET
 6.2.3 FILTER
 6.2.4 UNION
 6.2.5 OPTIONAL
 6.2.6 プロパティパス
6.3 SPARQLとRDFデータストア
 6.3.1 SPARQLエンドポイント
 6.3.2 実システム
 6.3.3 RDFデータストアの実装技術

引用・参考文献
索引

日刊工業新聞2017年8月28日 「技術科学図書」欄

 セマンティックWebとは
 セマンティックWebは十数年前に一度ブームになり,いくつかの書籍が出版されましたが,リンクトデータの広がりと普及により現在改めて,いくつかの出版社でその最新動向や取扱いについて少しずつ出版されつつあるようです。現在,情報工学においては,機械学習やとりわけ深層学習など,人工知能関連が一大ブームとなっていますが,さらにそれに併せてWebマイニング,ビッグデータ,オープンデータなども,情報工学におけるいわば熱いテーマとして取り扱われるようになっている昨今です。
 さて,セマンティックWebは上記のような情報工学における潮流の一つの流れとして,これまた改めて注目されつつあるテーマであり,本書はそれらについて最新動向と具体的な内容について解説しています。情報工学,特にWebマイニング,ビッグデータ,オープンデータなどに興味をもつ読者は,これら情報工学の潮流に乗り遅れないためにも,是非とも一読しておきたい一冊ではないかと思います。
 ちなみにWebブラウザで検索エンジンを使って検索した際に,最近はその検索内容について詳細な内容が出てくるようになっていますが,実はこれはセマンティックWebが結実した一つの典型的な例であり,このようにセマンティックWebは実はもうすでに身近なものとなっているのが現状です。HTMLソースにメタデータを埋め込むことにより,Web全体を一大リンクトデータ化しようという,この広大な構想の試みの一端について,是非とも本書を通じて少しでも実感していただければ幸いです。