国立情報学研究所が無償提供受ける

Q&Aサイトなら米国に勝てる? 「Yahoo!知恵袋」研究が開始

2007/03/06

 国立情報学研究所(NII)は3月6日、ヤフーが運営するQ&Aサイト「Yahoo!知恵袋」の質問回答文データの無償提供を受けて、情報検索技術の研究を開始すると発表した。米国では大学と検索サービス企業とのコラボレーションが多く、検索技術関連の研究は「クエリのログがないと成り立たない」(NII 情報社会相関研究系 主幹 大山敬三氏)という。NIIは「検索技術でこれから米国にキャッチアップするのは難しい」(同氏)として、日本が比較的健闘しているQ&Aサイトを材料に情報分析などの研究に取り組む。

yahoo01.jpg NIIの副所長 東倉洋一氏

 NIIは、情報検索や情報分析、情報活用を研究する利用者に4月以降、Yahoo!知恵袋のデータを提供する。NIIが進めてきた共同研究「情報検索システム評価用テストコレクション構築プロジェクト」(NTCIR)でも活用する。

 NIIの副所長 東倉洋一氏はデジタルデータの急増による「情報爆発」で、必要な情報が探せないなどの問題が起きていると指摘。一方、Q&Aサイトやブログ、電子メールなどの普及で、従来の書き言葉や話し言葉ではない「Web言語」が存在感を増していると説明し、「Web言語の研究が今後は必要だ。情報爆発から新しい価値をくみ出すことができる」と話した。

 ヤフーが提供するのはYahoo!知恵袋のベータ期間(2004年4月〜2005年11月)の質問回答文のデータ。質問が約311万件、回答が約1347万件におよぶ。本文データは約16億字。ヤフーはベータ期間中からYahoo!知恵袋のトップページで、データを研究機関に提供することを告知してきて、「ユーザーの理解を得られている」(ヤフー 岡本真氏)としている。本文のほかに投稿日時などのメタデータも提供する。投稿者は特定されない。

 Yahoo!知恵袋のデータ提供を受けた研究者は、主に検索技術や要約技術、情報の信頼性についての評価技術の研究に活用することが想定されている。東倉氏は「Q&AサイトのようなWeb言語には、いままでの言語分析は通用しない。研究者は新しい分析手法を開発しないといけない」と話した。

(@IT 垣内郁栄)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)