画像/動画認識のComputer Vision APIをOCRとして使うには? フォントごとの精度は?認識系API活用入門(5)(4/4 ページ)

» 2017年06月15日 05時00分 公開
[岩本禎史株式会社クロスキャット]
前のページへ 1|2|3|4       

OCR機能APIの精度を日本語/英語、フォントの違いで検証

 続いて、実際にAPIの精度が、どの程度のものなのかを検証してみましょう。ビルドしたExeを起動します。

アプリケーションの画面(再掲)

 特に操作に難しいところはありません。「画像ファイルを選択」ボタンをクリックして、画像を選択します。言語コードを指定してOKボタンをクリックすると、OCR機能APIを呼び出して、返ってきた結果を画面下側のテキストボックスに表示します。

※本連載では、これまでIBMやGoogleなどの他社サービスと比較してきましたが、今回はしません。2017年5月現在、IBMについてはOCR関連のAPI自体がないようです。GoogleはCloud Vision APIとしてOCRのAPIが公開されています。ただしブラウザなどで手軽に試せる環境は提供されていません(Google Drive にアップロードした画像ファイルを簡単に文字変換する方法はありますが、APIとして公開されているOCRと同じOCR処理を使用しているかが不明なため、今回は検証の対象外としました)。


 試しにパワーポイントのスライドを画像化したものを読ませてみましょう。幾つかのフォントで同じ文章のものを用意し、結果を比較してみます。

日本語メイリオ

 まずは日本語編。フォントはメイリオから。

DeepLea「ningの恩恵を手軽に活用できるコグニテイプサ-ビスとは
コグ二ティブサ-ビスのAPIを用いて、「現在のコグ二ティブサ-ビスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。初回は、コグ二ティブサ-ビスとは何かの概要とAPIを使うための準備の仕方を説明します。

 アルファベットの「r」が鍵かっこと認識されてしまいました。「コグニティブ」の「ニ」が漢数字の「二」になっています。それ以外は問題なさそうです。メイリオでは片仮名の「ニ」と漢数字の「二」の識別が難しいようです。

日本語MSP明朝

 続いてMSP明朝です。

DeepLearn鄴gの恩恵を手軽に活用できるコグニテイプサービスとは
コグニティブサービスのAPIを用いて、「現在のコグニティブサービスでどのようなことができるのか」「どのようにして利用できるのか」「どの程度の精度なのか」を検証していく連載。初回は、コグニティブサービスとは何かの概要とAPIを使うための準備の仕方を説明します。

 「DeepLearning」の一部が「iiig」と認識されてしまいましたが、他はまったく問題ありません。MSP明朝の片仮名の「ニ」と漢数字の「二」の間違いもありませんでした。

日本語HGP創英角ポップ体

 続いてHGP創英角ポップ体というフォントを試してみます。

De印レ00の思廖を手軽に活用できるコグニティ7サービスこは
コグニティ7サービスのA円を用いて、「現在のコグニティ7サービスでこのようなごこができるの」「このようにして利用できるのか」「この程度の精度なの」を検証し
ていく連載。初回は、コグニティ7サービスこは何かの概要こA円を使うたの準備の仕方を説明します。

 これまでのメイリオ、MSP明朝と比べると、精度が高いとは言えない結果になりました。「ブ」は数字の「7」、「と」は「こ」、「API」は「A円」と認識されてしまっています。

日本語HGP行書体

 続いてHGP行書体というフォントを試してみます。

Deepムearれgの恵を手に倍用てさるコグニティブサービスどは
コグニティフ・サービスのA円を用いて、「秞溢のコグニティフ・サービスてゼのようなこどいてきるのか」「ビのように(て利用てきるのか」「ビのれ度の精度なのか」を検証(ていく連載。回は、コグニティフ・サービスどは何かの概要どA円を使うための率備の仕オを説はす。

 こちらも精度が高いとはいえない結果になりました。メイリオやゴシック、明朝といったフォントであれば、かなり高い精度で識別してくれますが、それ以外のフォントの場合はかなり識別率が下がると考えた方が良さそうです。

日本語手書き文字

 ちなみに、手書きの文字は現段階ではプレビュー扱いで「アルファベットのみ対応」ということです。試しに日本語の手書き文字の画像を送ってみました。対応していないのですから当たり前といえば当たり前なのですが、識別率は低いです。

ムイ企アラな柏霾
小由し覚デし7を
分類か工含、いつ
く。うしこ為いコン7ンツ
いら少ー窳ー毛。
画のな衣ま
厚し(,視、冗データと
分第、〆,爬第ノす。
ま、々ましくなしロ/テンツ
谷ラーダ、'ー乞,祅、レ第す。

 日本語の手書きの文字をコグニティブサービスに正しく識別させるのはまだまだ難しそうです。

英語メイリオ

 続いて英語を試してみます。フォントはメイリオです。

NASA Telescope Reveals Largest Batch of Earth-Size, 
Habitable-Zone Planets Around Single Star 
NASA's Spitzer Space Telescope has revealed the first known 
system of seven Earth-size planets around a single star. Three of 
these planets are firmly located in the habitable zone, the area 
around the parent star where a rocky planet is most likely to have 
liquid water. 
The discovery sets a new record for greatest number of habitable- 
zone planets found around a single star outside our solar system. 
All of these seven planets could have liquid water - key to life as 
we know it - under the right atmospheric conditions, but the 
chances are highest with the three in the habitable zone.

 全く問題ありません。

英語MSP明朝

 続いてMSP明朝です。

NASA Telescope Reveals Largest Batch of Earth-Size, Habitable-Zone 
Planets Around Single Star 
NASA's Spitzer Space Telescope has revealed the first known system of seven 
Earth-size planets around a single star. Three of these planets are firmly 
located in the habitable zone, the area around the parent star where a rocky 
planet is most likely to have liquid water. 
The discovery sets a new record for greatest number of habitable-zone 
planets found around a single star outside our solar system. All of these seven 
planets could have liquid water - key to life as we know it - under the right 
atmospheric conditions, but the chances are highest with the three in the 
habitable zone.

 ハイフンが先ほどと違いますが、先ほどのメイリオではUnicodeの002D(hyphen-minus)でしたが、MSP明朝では2014(Em dash)という違いがあるようです(メモ帳では見た目の違いは分かりません)。それ以外は全く問題ありません。

英語Segoe Script

 では、ちょっと変化球で手書き文字風のフォントであるSegoe Scriptで試してみます。

NASA T el-e.s.co-po Re.4tooU-9 La.egc* Of 
P la..we..+y Aro-t.un-.d/ Single.' Sta-r 
NASAty SpUze.r Space T e..luoope hay re-.veoA-zd4 f-u--s+ 
kno-vvou sgs+cvw of Eoer-fl'V-9Uze./ planet-y wro-tuad/ 04 
9+04'. Of plane.a-y are; f-urn,U-g lo-c-a.+eob 
h.oJ'AaoJ'A-& zone, a,rew around/ 0-7 
roc-kg m.o-s+ lAkR.A-g +0- V.t-o-.+ex. 
dk.-sc.,o-vzrtd s.e.a-y 0-7 re-co-rd/ f-o-r grea-.+e..4F Of 
plane.a-y f-o-t.uad/ a..r-o-t,uad/ 0-4 90141.2; 0-t.A4suCe./ 
O-t.A4-- so-la-4-- sgs.ft..zvvv. AW Of pl.-a-neb/ co-t.old/ 
- keg +0- a--S/ - right 
Hure..& ha.bOt-a.J'>Ce./ zone.

 ほとんど識別してくれませんでした。相当難しいようです。

英語HGP創英角ポップ体

 最後にHGP創英角ポップ体です。

NASA Telescope Reveals Larges* Ba+ch of Ear+h-Size, Habi+able- 
Zone Plane+s Around Single S+ar 
NASA's Spi+zer Space Telescope has revealed firs} known 
sys+em 04 seven Ear+h-size plane+s around a single s+ar. Three of 
+hese plane+s are firmly loca+ed in habi+able zone, area 
around paren+ s+ar where a rocky plane} is mos} likely +0 have 
liquid wafer. 
The discovery se+s a new record for grea+es+ number of habi+able- 
zone plane+s found around a single s+ar ou+side our solar sys+em. All 
of +hese seven plane+s could have liquid wafer - key +0 life as we 
know i} - under righ+ a+mospheric condi+ions, bu+ chances 
are highes+ wi+h +hree in habi+able zone.

 Segoe Scriptよりは高い精度が出ていますが、小文字の「t」が「+」や「*」「}」「f」と識別されています。

次回は、chatボットの作成

 いかがでしたでしょうか。日本語についてはスタンダードなフォントであれば、一部誤認識はあるもののかなり高い精度で識別してくれました。英語でもメイリオやMSP明朝などスタンダードなフォントであれば問題はありませんが、それ以外のフォントの場合は精度が落ちると考えた方がよいでしょう。

 手書きの文字については、現段階ではまだプレビュー扱いでアルファベットのみ対応ということで、日本語の手書き文字は散々な結果になりましたが、これが正式リリースになり日本語対応になったときに、どの程度精度が向上するかが楽しみです。

 次回は最終回。LUIS(Language Understanding Intelligent Service)を試してみます。「Microsoft Bot Framework」と組み合わせてchatボットの作成に挑戦するので、お楽しみに。

前のページへ 1|2|3|4       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。