ブログウォッチャー

「また聞き」「うわさ」はなし、精度重視の体験談検索サイト

2007/07/02

 リクルート、電通などが出資するブログウォッチャーは7月2日、「また聞き」や「うわさ」を排除し、著者の体験談だけを抽出できるブログ検索サイト「SHOOTI」(シューティ)を7月3日に開設すると発表した。東京工業大学の准教授で、ブログウォッチャーに1%出資する奥村学氏が研究する自然言語処理技術を生かした。

blog01.jpg 東京工業大学の准教授 奥村学氏

 SHOOTIは約1000万のブログ記事をクロールし、モノゴトに対する評判とブログの著者情報、対比表現(モノゴトのライバル、対となる表現)を抽出する。検索対象で重要になるのは評判解析技術。奥村氏によると「何に対する評判か」「どういう点が評価されるか」が分かるという。例えば「大きい」という評価語だけでは、それが肯定か否定か分からないが、別の属性を加味することで判断できるようになる。

 従来、このような評価語は辞書を事前に作成していたが、奥村氏らが開発した技術では「機械学習機」を導入し、「最初に少数の用語を人手で登録すると、機械が自分で辞書を増殖させる」ことができるようにした。事前に登録された表現を手がかりに機械学習機が同じような表現をブログから探して辞書を充実させていくという。

 ブログでは、また聞きの体験談や、フィクションの体験談も場合によってはある。その中から著者が実際に体験した信頼できる情報を見つけるには、構文解析技術を使う。形態素解析を行ったうえで、係り受け構造を見つけ出すという。ブログ文章の主語と述語、目的語の構造を解析することで、そのブログ文章が、著者の実際の体験を基にしているかどうか判断。加えて機械学習機によってその精度を上げていくという。

“マイウー”はまだまだ難しい

 ただ、口語表現が多いブログ文章では係り受け構造の判別には限界がある。奥村氏によると新聞の文章では90%の精度で係り受け構造を解析できるが、「ブログはそれよりも低くなる。ブログで使われる“マイウー”はまだまだ難しい」。機械学習機の機能向上に合わせて、用例収集も精度アップにポイントになる。

 SHOOTIでは体験談検索に併せてブログウォチャーの編集部が選んだ体験ブログの紹介も掲載。APIを読み込ませて、リクルートが展開する各Webサイトに関連するブログの体験談のリストを掲載することも今夏に行う。体験談に関連させたタイアップ広告を収入源とする。

関連リンク

(@IT 垣内郁栄)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)