自然言語処理機能搭載で検索機能向上

東芝のXMLデータベースは、コンテンツ管理やデータ統合に合う

2006/11/28

 東芝ソリューションは11月28日、XMLデータベース「TX1」の最新バージョンであるV2を発表した。自然言語処理機能を搭載し、検索性能を向上、RDBやNotesなどさまざまな形式のデータをXML形式に変換し、登録する機能を追加した。

 適用例としては、ドキュメントや電子メールなど非定型データをXML形式で表現し、管理する「コンテンツ管理システム」の領域がある。もう1つは、システムごとにRDBやNotesなどで個別に運用しているデータをXMLデータに変換し、システムをまたがった一元的な検索や分析を可能にする「データ統合システム」の領域である。いずれの領域も、大量のデータを高速に検索できること、さまざまな形式のデータでもXMLデータとして扱えることという要件を満たす必要があった。

 TX1 V2の大きな特徴として、形態素解析方式の検索が行える自然言語処理機能を搭載した点が挙げられる。この機能を搭載したことで、Nグラム方式(隣接する文字列で索引となる文字列を切り出す方式)の検索のほか、単語の意味に着目した検索が可能となった。

(@IT 谷古宇浩司)

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)