AI・機械学習のデータセット辞典

全データセットを一覧表示しています。データセット名をクリックすると、データセットの解説を参照できます。今後も粛々とデータセットを拡充していきます。

AI・機械学習のデータセット辞典:

データセットが効率よく見つけられるPapers With CodeのDatasetsを紹介。各データセットのページでは、データセット利用に向くタスクや、ベストな性能を発揮するモデル、コードありの論文、各ライブラリのデータローダー、データセットの人気傾向などを確認できる。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「浮世絵顔」(v1.0)について説明。1万6653枚の浮世絵の「顔画像データ+メタデータ(作品名や役者などの書誌情報)+アノテーションデータ(顔パーツと顔領域の座標データ)」が無料でダウンロードでき、画像認識などに利用できる。データセットをダウンロードできるPythonファイルについても紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Wiki-40B」について説明。高品質に加工された、英語や日本語を含む40以上の言語におけるWikipediaテキストが無料でダウンロードでき、自然言語処理の言語モデルの作成などに利用できる。TensorFlowにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Food-101N」について説明。31万9枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、ラベルノイズ問題の研究や画像認識などのディープラーニングに利用できる。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Food-101」について説明。10万1000枚、101種類の料理カラー写真(アップルパイや餃子など)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。TensorFlowにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Open Images Dataset」について説明。物体検知用の境界ボックスや、セグメンテーション用のマスク、視覚的な関係性、Localized Narrativesといったアノテーションが施された、約900万枚と非常に膨大な数の画像データセット。その概要と使い方を紹介する。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

Bingキーワード検索による画像データの収集を、Pythonライブラリのicrawlerを使って簡単に行う方法を紹介する。たった3行のコードで非常にシンプル。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「QMNIST」について説明。MNISTを改良してテストデータを1万から6万に増やし、合計12万枚となった手書き数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyTorchにおける利用コードやTensorFlowにおける情報も紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「EMNIST」について説明。81万枚〜7万枚の手書きアルファベットおよび数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。PyPIパッケージ、TensorFlow、PyTorchにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Reuters newswire」について説明。1万1228件のロイターニュース配信テキストに対するトピック分類問題が扱えるデータセットについて説明する。TensorFlow/Kerasにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「ImageNet」について説明。1400万枚以上のカラー写真(教師ラベルは2万カテゴリー)の画像データ(のURLなど)が無料でダウンロードでき、画像認識などに利用できる。主に研究/教育目的で用いられてきた歴史的に有名なデータセットであるが、現在では多くの問題も指摘されている。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

日本政府が公開するオープンデータの中でも、機械学習/データサイエンスに活用できるお勧めのデータセットを厳選して紹介する。具体的には「e-Stat(政府統計の総合窓口)」「Tellus(衛星データプラットフォーム)」「過去の気象データ(気象庁)」の3つ。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

機械学習やディープラーニング用の主要ライブラリが提供する「画像/音声/テキストなどのデータセット」の名前とリンクを表にまとめ、典型的な使い方を簡単に紹介する。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

世界中のデータセットがググれる(=Google検索できる)「Dataset Search」を紹介。検索結果のフィルタリングや、日本語対応、対象ページを開く方法、内容記載などについて言及する。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Large Movie Review」について説明。IMDbサイト上での5万件の「テキスト(映画レビューコメント)」+「ラベル(ポジティブ/ネガティブの感情)」が無料でダウンロードでき、二値分類問題などのディープラーニングや機械学習に利用できる。元データの内容や、TensorFlow、Keras、PyTorchなどにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Titanic」について説明。1309件の「タイタニック号乗客者の生存状況」の「表形式データ(年齢や性別などの13項目)」+「ラベル(生存状況)」が無料でダウンロードでき、分類問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、TensorFlow、Kaggleにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Boston Housing」について説明。506件のボストンの住宅価格の「表形式データ(部屋数や犯罪率などの13項目)」+「ラベル(住宅価格)」が無料でダウンロードでき、回帰問題などのディープラーニングや統計学/データサイエンスに利用できる。scikit-learn、Keras/tf.keras、TensorFlowにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「CIFAR-100」について説明。6万枚の物体カラー写真(動植物や機器、乗り物など100種類)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「CIFAR-10」について説明。6万枚の物体カラー写真(乗り物や動物など)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「Fashion-MNIST」について説明。7万枚の写真(ファッション商品)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「KMNIST」について説明。7万枚の手書き文字(くずし字)の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。データセットをダウンロードできるPythonファイルについても紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「MNIST」について説明。7万枚の手書き数字の「画像+ラベル」データが無料でダウンロードでき、画像認識などのディープラーニングに利用できる。scikit-learn、Keras/tf.keras、TensorFlow、PyTorchにおける利用コードも紹介。

【一色政彦 , デジタルアドバンテージ】()
AI・機械学習のデータセット辞典:

データセット「fastMRI」について説明。1500枚以上の膝MRIの画像データや、6970枚の脳MRIの画像データが無料でダウンロードできる(契約と申請が必要)。

【一色政彦 , デジタルアドバンテージ】()

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。