連載
» 2020年12月09日 05時00分 公開

AI・機械学習のデータセット辞典:Food-101N:料理カラー写真(分類ラベルのノイズが多いバージョン)の画像データセット

データセット「Food-101N」について説明。31万9枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、ラベルノイズ問題の研究や画像認識などのディープラーニングに利用できる。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

データセット解説

 Food-101Nデータセット(以下、Food-101N)は、101種類の「料理カラー写真」(アップルパイや餃子など)の画像データセットであるFood-101を拡張したバージョン、具体的には分類のラベル(=正解を示す教師データ)にノイズが多い(=約20%の分類ラベルが間違っている)バージョンである(図1)。Food-101Nは、「(人間による正確なラベル付けを極力なくした場合の)ラベルノイズを解決する学習のためのデータセット(A Dataset for Learning to Address Label Noise)」と説明されており、基本的な用途が限定されているが、名前からFood-101と混同しやすいため簡単に紹介しておくことにした。

図1 Food-101Nに含まれる「101種類の料理画像」の例 図1 Food-101Nに含まれる「101種類の料理画像」の例
データセットの配布元: 「Food-101N: A Dataset for Learning to Address Label Noise」。ライセンス指定なし。マイクロソフト製。

 101種類のラベル名とインデックス番号は、Food-101と同じなので、記事「Food-101:料理カラー写真(アップルパイや餃子など)の画像データセット:AI・機械学習のデータセット辞典 - @IT」を参考にしてほしい。

 Food-101Nデータセット全体は、

  • 合計31万9枚(=各ラベルの枚数はふぞろい)
  • そのうち、実証ラベル(Verification labels): 分類を人間が手動でラベル付けしたもの
    • 5万2868枚(=「各ラベル:523枚前後×101種類)の訓練データ用(画像とラベル)
    • 4741枚(=「各ラベル:47枚前後」×101種類)の精度検証(validation)データ用(画像とラベル)

で構成される。全ての画像は、24bit RGBフルカラー画像で、辺(=幅と高さ)の最長が320pxになるように再スケーリングされている(Food-101は最長が512pxだったので仕様が異なる)。

 より詳しくは、

を参照してほしい。

引用のための情報

 このデータセットは、人工知能発展のための非商用研究目的において自由に使用できる(ライセンスは指定されていない。著作権は放棄していないものと考えられる)。

 引用情報を以下にまとめておく。

  • 作成者: Kuang-Huei Lee, Xiaodong He, Lei Zhang and Linjun Yang
  • タイトル: CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise
  • カンファレンス: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018)
  • 公開日: 2018
  • URL: https://arxiv.org/abs/1711.07131

利用方法

 実際にFood-101Nを使うには、

からダウンロードすればよい(約8GB)。対応するライブラリはないので、自らロードするコードを記述する必要がある。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。