IPSJ情報処理カタログ #ジョーショリ

用語集

セマンティック・ウェブ

せまんてぃっく・うぇぶSemantic Web

概 要

セマンティック・ウェブとは、Webページの内容にコンピュータが理解できる意味(セマンティック)を付与することで、コンピュータがWebページの意味を理解し、自律的に情報を収集、処理できるようにするための技術。Webページ文書内の要所要所にコンピュータが読み取るためのメタデータを埋め込むことで実現する。

解 説

セマンティック・ウェブは、WWW(World Wide Web)とHTMLの生みの親であるティム・バーナーズ=リーが1998年に提唱したプロジェクトです。Webページ文書内の単語や固有名詞に、それぞれがどういう意味かというデータをコンピュータのために追記していこうというものです。

たとえばWebページの内容について、私たち人間は目を通せば大方の内容は把握できます。しかしコンピュータにとってはただの文字列に過ぎず内容までは把握できません。たとえば「松山」という単語があった場合、それが地名なのか人名なのか、人間であれば前後の流れから判断できますが、コンピュータでは判断するのが難しいのです。

そこでメタデータとして文書の意味を機械が読める形式(構造化データ)で埋め込み、地名ならきちんと「地名」と指定しておくことで、コンピュータが情報を収集、処理する際の手助けとします。とくに検索エンジンのクローラーが情報収集する際に有効な情報なので、検索結果の精度向上につながります。

セマンティック・ウェブは、構造化データの記述に相応のスキルが必要で、データの追記も決して少なくない労力がかかります。そのため、とくに検索エンジンのSEOなどに関わるものは、手軽な書き方が発展し、商用サイトなどで用いられています。一方で、政府や公的機関などによるデータ公開において、再利用性の高いデータセットを用意する手段として用いられる場合は、より複雑な書き方になります。

セマンティック情報の記述には、HTMLタグを用いるもの(Mcrodata)やJavaScriptを用いるもの(JSON-LD)、XMLを用いるもの(RDF/XML)などさまざまな種類のものがあります。セマンティック・ウェブにおいては、単語や文書に意味として付与される構造化データの型や属性は、誰でも自由に定義して使えます。しかし広く使われているものを使ったほうがmデータの再利用性が高くなるので、Webの標準化組織であるW3Cが提案したものや「Schema.org」で公開されたものが、全世界的に用いられています。

実現できること

  • ・より高度なデータ公開へ。以前より政府や公的機関などが公共に関するデータ(政府統計や年情報など)を公開していましたが、これらにセマンティック情報が付与されることで、このデータを活用したさまざまなアプリケーションを容易に作成できるようになります。
  • ・検索結果の上位へ。セマンティック情報は検索エンジンにとっても有効なデータなので、上位に表示される可能性が高くなると言われています。
  • ・検索結果の正確性アップ。セマンティック情報として記述したデータは正確な検索結果に繋がります。
  • ・検索エンジンのリッチリザルト利用。検索結果に写真やユーザーレビュー、イベント日程などを載せられます。
  • ・Webサイトへの流入増加。検索結果を最適化することで、結果としてWebサイトへの流入増加が期待できます。
  • ・スクリーンリーダーでの正確な読み上げ。視覚障がい者が利用する音声読み上げのスクリーンリーダーは、セマンティック情報を利用してWebページ内容をより正確に読み上げます。

将来の展開

現在、セマティック・ウェブは主に検索エンジンの最適化に活用されています。とくにECサイトなどでは効果が高く、必須になりつつあります。

検索の正確性を上げるために今後もセマンティック・ウェブが広がっていくことを期待しますが、リッチリザルトに関係ない部分のセマンティック情報はWebサイト運営に直接的な効果が見えないため、労力とのバランスが取りづらいのが現状のようです。そのため、より簡単にセマンティック情報を記述できる支援ツールの充実などが求められています。

PAGE TOP