連載
» 2020年08月05日 05時00分 公開

AI・機械学習のデータセット辞典:アクティブに更新され続けている、お勧めの機械学習データセット一覧サイト

「300個以上のデータセットを紹介している大型サイト」「毎週/毎月のようにアクティブに更新されているサイト」という条件に該当するお勧めのデータセット一覧サイトとして「arXivTimes/DataSets」「Awesome Public Datasets」「UCI Machine Learning Repository」の3つを紹介する。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

 本連載では、よく使われる代表的なデータセットや面白いデータセット、新しいデータセットを個別に取り上げて紹介している。記事を拡充中ではあるものの、数はまだまだ少ない。「より多くのデータセットをカテゴリーごとに一望したい」というニーズは高いのではないかと思う。

 そこで本稿では、

  • 300個以上のデータセットを紹介している大型サイト
  • 毎週/毎月のようにアクティブに更新されているサイト

に条件を絞って、データセット一覧のサイトを紹介する。上記の条件に当てはまる良質なサイトは3つほどある。それらをお勧め順で紹介していく。

 ちなみに、デーセットを一望したり探したりするためには、「PyTorch/TensorFlow/Keras/scikit-learnライブラリ内蔵のデータセット一覧」や「機械学習/データサイエンスに活用できる「政府系」オープンデータセット3選」「Dataset Search(データセット検索)」も役立つと思うので、必要に応じて本稿と併せて活用してほしい。

arXivTimes/DataSets

図1 arXivTimes/DataSets 図1 arXivTimes/DataSets

 このサイトは、複数のコントリビュータとともに、piqcy(@icoxfog417)氏(ちなみに同氏のメルマガ「Weekly Machine Learning」を記事「おすすめのメルマガ3選」でも紹介した)がメインで管理しているGitHubリポジトリである。

 非常に頻繁に更新されている生きたデータセット一覧サイトである。これを最初に紹介したのは何よりも、日本語で短い紹介文が付いているからだ。

 カテゴリー分類は以下のようになっており、300個以上のデータセットへのリンクがある(2020年7月31日、筆者調べ)。

  • Vision(コンピュータビジョン)
    • Video(ビデオ)
    • Scene(シーン)
    • 3D(3次元)
    • Satellite(衛星)
    • BodyParts(人体パーツ)
    • Medical(医療)
    • Art(芸術)
    • Image Captioning/Visual QA(画像キャプション/視覚的質問応答)
  • NLP(自然言語処理)
    • Parallel Corpus(並列コーパス)
    • Classification(分類)
    • Sentiment(感情)
    • Entity Recognition(エンティティ認識)
    • Knowledge Base(ナレッジベース)
    • Q&A(質問応答)
    • Reasoning(論理推論)
    • Dialog(対話)
    • Summarization(要約)
    • Correction(訂正)
  • Audio(オーディオ)
    • Sound(サウンド)
    • Speech(スピーチ)
    • Music(音楽)
  • Other(その他)
    • Chemical(化学)
    • Security(セキュリティ)
    • Reinforcement Learning(強化学習)
  • Dataset Summary Page(データセットまとめページ)
  • To make your own(自分で作るには)

Awesome Public Datasets

図2 Awesome Public Datasets 図2 Awesome Public Datasets

 2つ目のサイトも、複数のコントリビュータで管理しているGitHubリポジトリである。英語圏では「Awesome ○○」(素晴らしい○○)というタイトルで、ベストリンク集を作るのがはやっているが、このリポジトリはその機械学習データセット版である。データセット一覧ページ自体は自動生成になっているようで、各項目には緑色の「I am well.(OK)」とオレンジ色の「Please fix me.(要修正)」のいずれかのマークが付けられている。

 更新頻度にムラはあるものの、頻繁に更新されているデータセット一覧サイトである。ただし、英語であり、概要的なタイトルが付けられているものもあるが、データセット内容の説明はないという欠点もある。

 カテゴリー分類は以下のようになっており、700個以上のデータセットへのリンクがある(2020年7月31日、筆者調べ)。

  • Agriculture(農業)
  • Biology(生物学)
  • Climate+Weather(気候+天気)
  • ComplexNetworks(複雑ネットワーク)
  • ComputerNetworks(コンピュータネットワーク)
  • DataChallenges(データ課題)
  • EarthScience(地球科学)
  • Economics(経済)
  • Education(教育)
  • Energy(エネルギー)
  • Finance(ファイナンス)
  • GIS(地理情報システム)
  • Government(政府)
  • Healthcare(健康管理)
  • ImageProcessing(画像処理)
  • MachineLearning(機械学習)
  • Museums(美術館)
  • NaturalLanguage(自然言語)
  • Neuroscience(神経科学)
  • Physics(物理)
  • ProstateCancer(前立腺がん)
  • Psychology+Cognition(心理学+認知)
  • PublicDomains(パブリックドメイン)
  • SearchEngines(検索エンジン)
  • SocialNetworks(ソーシャルネットワーク)
  • SocialSciences(社会科学)
  • Software(ソフトウェア)
  • Sports(スポーツ)
  • TimeSeries(時系列)
  • Transportation(交通手段)
  • eSports(eスポーツ)
  • Complementary Collections(補完的なデータセット集)

 ちなみに、Awesomeシリーズの一つに、画像認識のセマンティックセグメンテーションに使えるデータセット一覧「Awesome Semantic Segmentation Datasets」もある。

UCI Machine Learning Repository

図3 UCI Machine Learning Repository 図3 UCI Machine Learning Repository

 このサイトは、カリフォルニア大学アーバイン校が管理&公開する機械学習データセットのリポジトリである。データセット提供サイトとして有名であり、学術系ということで信頼性も高い。

 ほぼ毎週のように頻繁に更新されているデータセット一覧サイトだ。ただし、説明が英語で、カテゴリーは表形式データや時系列データが中心となっており、カテゴリーの幅は狭いのが欠点である。例えば画像データセットなどはかなり少ない(後述のカテゴリー分類の「Other(その他)」に分類されている)。

 カテゴリー分類は以下のようになっており、550個以上のデータセットへのリンクがある(2020年7月31日、筆者調べ)。

  • Data Type(データタイプ)
    • Multivariate(多変量)
    • Univariate(一変量)
    • Sequential(連続)
    • Time-Series(時系列)
    • Text(テキスト)
    • Domain-Theory(ドメイン理論)
    • Other(その他)

 データセットを探しやすいように、以下のようなフィルタリング手段が提供されている。

  • Task(タスク)
    • Classification(分類)
    • Regression(回帰)
    • Clustering(クラスタリング)
    • Other(その他)
  • Attribute Type(属性タイプ)
    • Categorical(カテゴリー)
    • Numerical(数値)
    • Mixed(混合)
  • Area(分野)
    • Life Sciences(生命科学)
    • Physical Sciences(物理学)
    • CS / Engineering(コンピュータ科学/エンジニアリング)
    • Social Sciences(社会科学)
    • Business(ビジネス)
    • Game(ゲーム)
    • Other(その他)
  • # Attributes(属性数)
    • Less than 10(10未満)
    • 10 to 100(10〜100)
    • Greater than 100(100より多い)
  • # Instances(インスタンス数)
    • Less than 100(100未満)
    • 100 to 1000(100〜1000)
    • Greater than 1000(1000より多い)
  • Format Type(フォーマットタイプ)
    • Matrix(行列)
    • Non-Matrix(非行列)

 以上、非常に大量のデータセットを一望できるサイトを3つ紹介した。

 今回の条件からは外れるが、メディア記事系の「データセット | Lionbridge AI」ではさまざまな切り口でデータセットを紹介する記事が頻繁に公開されているので、新しいデータを常に探している人にはお勧めである。

 また、「【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう! | AI専門ニュースメディア AINOW」は100個厳選でデータセットを紹介している。頻繁に更新されているわけではないが、ほどよく限られた数の選択肢からデータセットを探したい場合に参考になるだろう。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。