連載
» 2020年10月21日 05時00分 公開

AI・機械学習の用語辞典:Garbage In, Garbage Out(ゴミを入れたら、ゴミが出てくる)とは?

用語「Garbage In, Garbage Out」について説明。ゴミ(Garbage)のような不良データを入力すると、出来上がる機械学習モデルもゴミのように不良なものになる、という戒め/金言のこと。ゴミを入れないのは簡単なように見えて難しい。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習の用語辞典」のインデックス

連載目次

用語解説

 機械学習における“Garbage In, Garbage Out”(ゴミを入れたら、ゴミが出てくる)とは、品質の悪い不完全なデータを入力したり品質の悪い特徴量を作成したりすると、品質の悪い不完全な機械学習済みモデルが出力される、という格言/金言である。元々は、コンピュータによる情報処理全般における長年の格言であり、FIFO(First In, First Out:最初に入れたものを、最初に出す)をもじった感じでGIGOという呼び方もある。

図1 Garbage In Garbage Outのイメージ,図1 Garbage In, Garbage Outのイメージ

 この原理は機械学習を行う人であれば常識だろう。データの前処理や特徴量エンジニアリングの大切さは、初心者のときに必ず言及されるし、経験を積むほど身につまされるはずだ。そういった常識を分かりやすく表現したのが、この格言である。

 Garbage In, Garbage Outは、解決が簡単そうに見えて非常に難しい問題である。例えば画像データに適切なアノテーション(=教師ラベルのタグ)を付ける場合、特にディープラーニングでは大量数の画像データが必要となるため、その作業は手軽ではなく非常に地味でつらい作業となり、間違いや勘違いも起きやすい。例えば本来は「猫」とアノテーションする場合も、人によって「犬」や「虎」と判定してしまうなど、違いが生じる可能性がある。また既存オープンデータセットは、想像するよりも間違ったアノテーションが散見される状況である(人力でアノテーションしている限り防ぎようがないだろう)。また、1枚の画像に複数の対象が含まれるケースなども問題となる(参考:ImageNet)。

 さらに地域差や時代差といった問題もある。例えばモノに対する概念や実際の形状などが地域や時代で違う場合がある。例えば石けん一つとっても国によって形状が異なっていたりする。これらを平等にデータ収集することは難しい。これが公平性(Fairness)の問題にもつながっている。

 このように、Garbage In, Garbage Outは取るに足らない格言のように思えて、解決の難しい根の深い課題なのである。

「AI・機械学習の用語辞典」のインデックス

AI・機械学習の用語辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。