自然言語処理の基礎データに貢献

グーグルが日本語N-gramデータを公開

2007/11/01

 グーグルは11月1日、大規模日本語コーパスのN-gramデータを公開した。N-gramは自然言語処理の領域で、単語同士の結びつきを統計的に処理する計算モデル。「グーグルで検索」「グーグルで調べる」「グーグルで探す」のように特定の単語(例では“グーグル”)と、他の単語の結びつきを予測できる。

 N-gramは特定の位置にある単語が何であるかを、その直前の単語、さらに前の単語……、とN個分さかのぼって推測できるという仮説に基づいている。かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに使われている。

 公開したのはグーグルがWebサイトから抽出した約200億文(約2550億単語)の日本語データから作成したN-gramデータ(1〜7gram)。データは特定非営利活動法人 言語資源協会を通じて配布しており、団体・個人の区別なく利用できる。これまで米グーグルは英語について同様のデータを公開していた。今回新たに単語分割処理など日本語独自の処理を加えてデータを作成した。作成にはグーグルの大規模分散処理システムMapReduceを用い、数千台規模のPCクラスタを使った。

 今回のデータは、グーグル社内の「20%ルール」に基づいて、工藤拓氏と賀沢秀人氏が研究した成果。グーグルでは勤務時間の20%を研究開発など、自分の好きなテーマに使ってよい社内ルールがある。

(@IT 西村賢)

情報をお寄せください:

アイティメディアの提供サービス

TechTargetジャパン

キャリアアップ


- PR -

イベントカレンダー

PickUpイベント

- PR -

アクセスランキング

もっと見る

ホワイトペーパーTechTargetジャパン

ソリューションFLASH

「ITmedia マーケティング」新着記事

電通デジタルとトライベック、オムニチャネルを視野に入れた「ECサイト診断」サービスを提供開始
電通デジタルとトライベック・ストラテジーは、両社が共同開発した「ECサイト診断」サー...

「WEBCAS e-mail」、複数メールの横断分析やトランザクションデータの差し込みができる新バージョンを発売
エイジアはメール配信システム「WEBCAS e-mail」の新バージョンを発売すると発表した。新...

最後はやはり「人間」だから――B2Bマーケティングにおけるエモーショナルなアプローチの意義
米国のB2Bマーケティングは、日本に比べて圧倒的に進んでいるといわれています。今回は、...