[IBMアルマデン研究所 訪問レポート]
非構造化テキストデータを収集、分析する「WebFountain」とは

2004/7/27

 サンフランシスコの南東約55マイルに位置するIBM アルマデン研究所は、IBM Researchを構成する世界8カ所の研究所の1つである。シリコンバレー丘陵地帯に690エーカーの敷地面積を持つ同研究所は、自然公園の中にひっそりと存在している。駐車場に入るまで建物そのものを見ることさえできない。そんなアルマデン研究所は、IBMのデータベースに関する研究の心臓部である。リレーショナル・データベースは1970年代に同研究所によって創案された。

WebFountain チーフ・アーキテクトのダン・グルール(Dan Gruhl)氏

 現在、アルマデン研究所で行われている研究として注目を浴びているのが、「WebFountain」と呼ばれる、非構造化/半構造化テキストデータを収集・格納・分析する技術基盤である。WebFountain チーフ・アーキテクトのダン・グルール(Dan Gruhl)氏によるとWebFountainは「インターネット・データ、WebLog、掲示板(BBS)、企業データ、レガシー・データ、新聞、雑誌など、世界中に存在するテキストデータを収集し、それらのメタデータをインデックス化し、それらのデータから、傾向、パターン、関係性を発見するWeb規模のマイニング・ディスカバリ プラットフォーム」であるという。

 この技術はもともとはスタンフォード大学とアルマデン研究所との共同研究だったが、ある時期から分岐し、一方はWebFountainに、もう一方は、Googleへと引き継がれることになった。「WebFountainが草の根レベルの情報までも収集、分析の対象とするのに対し、Googleの検索技術は、ある分野におけるトップ・プライオリティの情報に焦点を当てて検索結果を導き出す。始まりは一緒だが、アプローチの仕方は違う」とグルールはいう。

 米国ではすでにWebFountainの技術を利用した事例が発表されている。セマンティック・ベースの情報統合/ナレッジ・ディスカバリー技術を開発する「Semagix」は、WebFountainをCustomer Information and Risk Assessment System(CIRAS)と連携させ、違法なマネーロンダリング行為が疑われる不審な取引を発見するためのサービスを開発した。主に、金融サービス業に提供していくという。これは、金融機関が取引高の多い顧客がマネーロンダリングを行っている危険性を察知するための仕組みだが、その判断を行うための情報は構造化データベースの中にはほとんどないといっていい。通常、最新の情報あるいはWeb上にある非構造化情報や対象企業とはまったく関係ない掲示板やWebBlogの中にある。

 2003年9月にはIBMとダウジョーンズ&ロイター・カンパニーのFactivaが、WebFountainプラットフォーム上のテキスト分析ソリューションの共同開発で合意したという発表があった。Factivaは、WebFountainの技術を活用し、企業のブランドの認知度や時の経過による認知度の変化を洞察するのを支援するサービスを開発するとした。

 WebFountainを支えるシステムはXeon 3GHzのデュアル・プロセッサを搭載したLinuxサーバで、2004年6月の時点では256ノードクラスタで構成されていた。グルール氏は「8月にはおそらく540ノードクラスタにまで拡大するだろう」と話す。アルマデン研究所に設置されたWebFountainのシステムは6台の特殊空調装置にサポートされながら、日々その“能力”を拡張し続けている。このシステムを維持する1メガワットという電力消費は「通常のホストセンターの約16倍の電力が必要」(グルール氏)で、現在、コロラドやデンバー、ニュージャージーなどにホストセンターを建設中だという。
 
  なお、WebFountainプラットフォームは、WebServices Gatewayを介して、さまざまなアプリケーション・システムを構築しながら、顧客企業へと提供されていく。「ユーティリティ・コンピューティング的な提供形態だ」(グルール氏)。テキストデータだけではなく、特定のWebサイトに関しては、イメージデータのダウンロードを行うことも可能。

IBM フェローのラケシュ・アグラワル(Rakesh Agrawal)氏(左)、シニア・ソフトウェア・エンジニア Tyrone Grandison氏

 また、同研究所には個人情報を保護するためのデータベース・アーキテクチャを提唱する研究者の一群がいる。医学のヒポクラテス学派(Hippocratic Orth)の基本理念「患者の個人情報保護を重視する」に触発されたこの研究者たちは、Hippocraticデータベースという新しいタイプのデータ・システムの研究/開発を行っている。同プロジェクトの主任研究員でIBM フェローのラケシュ・アグラワル(Rakesh Agrawal)氏は、「Hippocraticモデルでは、現在のデータベース・システムのほとんどの側面を再考する必要がある」と話す。Hippocraticデータベースは、システムがその制御下において個人情報を管理できるようにする。そのためのデータベース・アーキテクチャは「目的の詳述」「同意」「収集の制限」「使用の制限」「開示の制限」「保持の制限」「精度」「安全性」「オープン性」「コンプライアンス(準拠)」という10の基本理念に基づいて設計されている。

(編集局 谷古宇浩司)

[関連リンク]
日本IBM

[関連記事]
開発ツール、統合化の傾向あり (@IT News)
2031年、ソフトウェアの旅 (@ITNews)
IBMがEclipse 3.0基盤のモジュラー型開発環境を発表 (@IT News)
非構造化データを統合管理、IBMが新プラットフォーム (@IT News)
あらゆる企業データを横断管理できる新ミドルウェア、IBM (@IT News)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)