Python向け日本語自然言語処理ライブラリ「GiNZA」、リクルートがGitHubで公開新元号「令和」にも対応

リクルートのAI研究機関であるMegagon Labsは、Python向け日本語自然言語処理ライブラリ「GiNZA」をオープンソースとしてGitHubで公開した。国立国語研究所のテキストコーパスを利用した学習済みモデルも組み込んだ。

» 2019年04月05日 11時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 リクルートは2019年4月2日、Python向け日本語自然言語処理ライブラリ「GiNZA(ギンザ)」をオープンソースソフトとして公開したと発表した。1.0.1版では新元号「令和」にも対応した。

 公開したのは同社のAI(人工知能)研究機関であるMegagon Labs。同ライブラリでは、国立国語研究所との共同研究成果の学習モデルを用いた。

 GiNZAは、Python向けの自然言語処理ライブラリ「spaCy」をフレームワークとして利用し、オープンソースの形態素解析器「Sudachi」のPython版である「SudachiPy」を内部に組み込んだ。

import spacy
nlp = spacy.load('ja_ginza_nopn')
doc = nlp('依存構造解析の実験を行っています。')
for sent in doc.sents:
    for token in sent:
        print(token.i, token.orth_, token.lemma_, token.pos_, token.dep_, token.head.i)
    print('EOS')
文単位で依存構造解析結果を出力するサンプルコード

日本語は取り残されていた

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。