「知的価値は“情報”から“知識”に移行する」

基盤が整い普及期に入るセマンティックWeb

2007/11/09

 「一時期話題になったセマンティックWebは一度沈静化した。しかし、研究開発は脈々と続けられていた。そして多くの人が知らないうちに、2008年には普及期の入り口に入ろうとしている」。野村総合研究所が11月9日に開催した「ITロードマップセミナー――企業情報システムは5年後こう変わる!」で講演した同社技術調査部 上級研究員の田中達雄氏は、そう語る。

nri01.jpg 野村総合研究所 技術調査部 上級研究員 田中達雄氏

 「セマンティックWeb」は「Web 2.0」が騒がれるようになる以前の1990年代後半、XMLとほぼ同時期に登場した次世代インターネットのあり方を指す概念だ。Webの生みの親で、現在もW3Cの理事を務めるティム・バーナーズ=リー氏は2000年代初頭に盛んにビジョンを語った。

 セマンティックWebを実現するために必要な技術の標準化や辞書の整備に長い時間がかかったため、「セマンティックWebというのは、求心力を失いつつあったW3Cのためにバーナーズ=リーが考え出したマーケティング用語ではないか」と揶揄されることもあった。しかし、セマンティックWebの世界は確実に訪れつつあるようだ。

基盤が整うセマンティックWeb関連の技術

 セマンティックWebのビジョンは明快だ。それは、コンテンツの意味(セマンティクス)がコンピュータにも理解可能な世界ということだ。現在、HTMLに書かれているテキストはコンピュータには意味が分からない。単語区切りや語彙の関連性を定量的に分析することはできても、“リンゴ”という語彙を「食べ物→果物」という階層化された概念の中に位置付けることはできない。そのため「おいしい 果物」で検索しても、おいしいリンゴやおいしいミカンのページは出てこない。

 田中氏が挙げるのは「今シーズンのショートターン用スキー板」を検索するという例だ。ショートターン用というのは、長さが170センチ以下、ターンしたときの回転半径が15メートル以下のスキー板のこと。現在はスキーに関する知識がある人間が、目でカタログの数値を見て判断していることだが、セマンティックWebの世界では、この判断をコンピュータに任せることができるようになる。現在、「ショートターン用は長さが170センチ以下、ターンしたときの回転半径が15メートル以下」という知識や、「“長さ”“全長”“サイズ”などは同意語」という知識を扱えるセマンティック関連の技術が開発され、研究が蓄積されつつあるという。自然言語処理を含め、知識を扱うフォーマットも成熟しつつある。例えば、階層化された概念や同意語は、XMLベースのマークアップ言語「OWL」(Web Ontology Language)や、RDF(Resource Description Framework)を用いて定義できる。

 すでに現在、“マイクロフォーマット”(microformats)と総称されるさまざまなマークアップ方式で、部分的にセマンティクスが付加されたHTML文書が増えている。データベースから機械的に生成されたHTMLやXHTMLでは、class属性やid属性にメタデータが埋め込まれているケースも多い。スキー板のカタログであれば、長さを示す数字列を囲むタグには「class=“length”」などの属性が付いていることが多い。そうしたXHTMLからRDFを自動生成する「GRDDL」(グリッドゥル:Gleaning Resource Descriptions from Dialects of Languages)という技術もW3Cの下、2007年9月に標準化作業を完了するなど、セマンティックWebというビッグ・ピクチャーを構成する要素技術は着実にそろいつつある。

 また、こうしたコンピュータ可読の“知識”を処理するためのセマンティック・エンジンにも、ヒューレット・パッカード(HP)の「Jena」、レッドハットの「MatchIT」のように研究開発の段階を過ぎて実用化段階にあるものもあるという。概念辞書(オントロジー)についても、さまざまなジャンルで定義が始まっているほか、ユーザーが共同で作成する「Semantic Wiki」のプロジェクトがいくつか興隆しつつあるという。

すでに知的価値は“情報”から“知識”に移行している

 田中氏は、今後、企業が競争力を維持するためには「情報を持っているだけは、もはや差別化できない。いかに知識を蓄積して提供していくかだ」という。

 欧米やアジア諸国ではセマンティック技術に対する投資が増えており、研究開発も活発だという。「アジア各国では2005年後半から研究開発が活発化。特に韓国はEUのセマンティックWebサービスプロジェクトのDERIに出資して研究者を送り出している。このままでは日本も追い越されると危惧する」(田中氏)。

 IBM、HP、NEC、マイクロソフト、グーグル、インテル、シスコなどの大手企業を含む250を越える企業がセマンティック技術の研究開発に関わり、70を越える企業がすでに製品やサービスを提供し始めており、「知識時代に向けた動きは着実に来ている」(同)という。顧客情報管理、コンプライアンス管理、ナレッジ管理、セキュリティ情報管理といった領域で、“知識”を活用するケースが増えているという。

 田中氏が例として挙げたのは、米シティグループの「Geo-Political Risk Calculator」と呼ばれる地政学上のリスクを予測するシステム。各地で起こる戦争、テロ、選挙、災害などのイベントと、金融関連の指標など各種情報を集約し、それに対して過去の経験や知見、統計的な知識をデジタル化したデータベースを適用して投資家に有益な情報を提供することができるという。例えば、「オーストラリアで干ばつ」という情報からは、「小麦の不作」「小麦価格の高騰」「小麦製品を扱う企業への影響」といったように付加価値の高い情報が引き出せる。

 田中氏によれば、セマンティック技術を採用した企業では生産性が2〜10倍に向上しているという報告があるほか、米国連邦CIO評議会は、2010年までにセマンティック技術関連市場は524億ドル規模に拡大すると予測しているという。これは2007年のCRM市場の約4倍という大きなものだ。

KDE4ではセマンティック検索を統合

 現実にセマンティック技術を活用した例として田中氏は、検索系サービスや「セマンティックデスクトップ」と呼ばれる新たなジャンルを紹介した。

 検索系サービスでは、Webサイトやユーザーの与えたセンテンスの意味を理解する「Wise.com」「LeapTag」「Hakia」などのWebサイトを紹介。また、より専門分野に特化した興味深いサービスとして英イノバンテージ社のサービスについて触れた。イノバンテージは、英国内の企業や組織のWebサイトをクロールして集めた求人情報を、自然言語処理と語彙辞書を使ってデータベースを構築。組織ごとに異なる語彙の違いを吸収した統一したデータベースによるサービスを提供しているという。

 セマンティックデスクトップというのは、デスクトップ検索に対して概念辞書を適用した検索を取り入れるというアイデア。例えば、ヨーロッパのISTは2006年1月に「NEPOMUK」と呼ばれるオープンソースソフトウェアプロジェクトを開始。1150万ユーロ(約18億2535万円)と2年の研究期間をかけて開発し、Linuxデスクトップ環境の「KDE4」に実装され、市場投入されるという(現在KDE4はベータ版が提供されている)。

いま企業は何をすべきか

 2008年から普及期に入るとすれば、セマンティックWeb技術に対して企業は、どう取り組んでいけばいいのだろうか。田中氏は、ベンダやSI事業者については知識を武器にできるよう準備すること、ユーザー企業に対しては、概念知識を活用する仕組み作りを1、2年以内に行うようにと提言している。ただ、セマンティック・エンジンや一般的な概念辞書は入手可能であるものの、専門領域の概念辞書は入手困難なケースが多いため、自社内の概念知識は自前で用意することになるだろうした。

関連リンク

(@IT 西村賢)

情報をお寄せください:

アイティメディアの提供サービス

キャリアアップ


- PR -
ソリューションFLASH

「ITmedia マーケティング」新着記事

ラグビーに関心を持つ人が急増――マクロミルと三菱UFJリサーチ&コンサルティングが調査
「2019年スポーツマーケティング基礎調査」の結果から速報値を紹介します。

Qlik、SaaS版セルフサービスBI製品「Qlik Sense Business」を発表
Qlikの特許技術である連想インデクシング(Associative Indexing)による高度なアナリテ...

日本人の1日のメールチェック時間は仕事用77分、私用53分 調査対象7カ国で最短――Adobe調査
メールの開封率およびエンゲージメント率向上のためにはまず、企業からのメールがいつ、...