連載
» 2021年02月08日 05時00分 公開

クラウド(AWS/Azure/GCP/IBM)で手軽に使えるオープンデータセットAI・機械学習のデータセット辞典

4つの人気クラウドプラットフォームで手軽に利用できるオープンなデータセットの一覧ページである「Registry of Open Data on AWS」「Azure Open Datasets」「Google Cloud 一般公開データセット」「IBM Developerの『データセット』カテゴリー」を紹介する。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

 AWS/Azure/GCP/IBMといったクラウドプラットフォームでは、各クラウド内で簡単に使えるオープンなデータセットが提供されている。本稿ではそのデータセットの一覧/検索ページについて紹介する。なお、この一覧ページのデータセットの中には、必ずしも機械学習には向いていないものも幾つかは含まれると想定されるので、あらかじめご了承いただきたい。

Registry of Open Data on AWS

図1 AWSで使えるオープンデータセットの一覧/検索ページ 図1 AWSで使えるオープンデータセットの一覧/検索ページ

 図1に示す通り、AWS(Amazon Web Services)では執筆時点(2021/02/04時点)で216個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、タグで絞り込める。

 また図2に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、利用例(チュートリアルや、ツール&アプリケーション、出版物など)へのリンクが掲載されている点も便利だ。調査研究や学術利用をしたい人にはお勧めできる。

図2 AWSで利用できる各データセットの詳細ページの例 図2 AWSで利用できる各データセットの詳細ページの例

Azure Open Datasets

図3 Azureで使えるオープンデータセットの一覧/検索ページ 図3 Azureで使えるオープンデータセットの一覧/検索ページ

 筆者が手動で確認した限りでは、Azureでは執筆時点(2021/02/04時点)で36個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、[天気][衛星映像][社会経済学のデータ][City safety][公休日][機械学習用のサンプル データセット]という絞り込み(実際に実行されるのは検索)も用意されている。

 また図4に示すようにそれぞれの詳細ページには概要説明文があり、データのプレビューや、図5に示すようにデータロード用のコードを含むJupyterノートブックがダウンロードできるのが便利だ。特に日本語に対応している点も大きなメリットではないだろうか。現場で実用したい人にお勧めだ。

図4 Azureで利用できる各データセットの詳細ページの例 図4 Azureで利用できる各データセットの詳細ページの例

図5 Azureではデータセットを利用するためのJupyterノートブックを入手可能 図5 Azureではデータセットを利用するためのJupyterノートブックを入手可能

Google Cloud 一般公開データセット

図6 GCPで使えるオープンデータセットの一覧/検索ページ 図6 GCPで使えるオープンデータセットの一覧/検索ページ

 一覧ページの[データセット]という見出しの下で確認できるが、GCPでは執筆時点(2021/02/04時点)で208個のデータセットが簡単に利用できるようになっている。それらを文字列検索できるだけでなく、カテゴリーで絞り込める。

 また図7に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図8に示すようにテーブルスキーマの確認や(BigQueryによる)データのSQLクエリーがすぐに行えるのが便利だ。非常にパワフルなので、効率的に作業したい人にお勧めしたい。

図7 GCPで利用できる各データセットの詳細ページの例 図7 GCPで利用できる各データセットの詳細ページの例

図8 GCPではBigQueryを使って自由度の高いデータ内の確認が可能 図8 GCPではBigQueryを使って自由度の高いデータ内の確認が可能

IBM Developerの「データセット」カテゴリー

図9 IBMで使えるオープンデータセットの一覧/検索ページ 図9 IBMで使えるオープンデータセットの一覧/検索ページ

 図9に示す通り、IBMでは執筆時点(2021/02/04時点)で40個のデータセットが簡単に利用できるようになっている。もちろん文字列検索も可能だ。

 また図10に示すように(英語ではあるが)それぞれの詳細ページには概要説明文があり、図11に示すようにデータをロードしてグラフで可視化するためのコードが含まれたJupyterノートブックがダウンロードできるのが便利である。IBM Cloudを利用している企業であれば便利に活用できるだろう。

図10 IBMで利用できる各データセットの詳細ページの例 図10 IBMで利用できる各データセットの詳細ページの例

図11 IBMではデータセットを利用するためのJupyterノートブックを入手可能 図11 IBMではデータセットを利用するためのJupyterノートブックを入手可能


 以上、4つのクラウドプラットフォームで利用可能なデータセットの一覧ページについて紹介した。筆者がここ数年で確認している範囲では、これらのページは変更されやすい。あくまで執筆時点の情報である点に注意してほしい。もしリンク切れなど、本稿の内容が有効ではなくなったことに気付いた場合は、お手数であるがお問い合わせ窓口などから情報をお寄せいただけるとありがたい。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

編集部からのお知らせ

6月16日にフォーマット統一のため利用規約を変更します

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。