連載
» 2021年06月17日 05時00分 公開

浮世絵顔データセットAI・機械学習のデータセット辞典

データセット「浮世絵顔」(v1.0)について説明。1万6653枚の浮世絵の「顔画像データ+メタデータ(作品名や役者などの書誌情報)+アノテーションデータ(顔パーツと顔領域の座標データ)」が無料でダウンロードでき、画像認識などに利用できる。データセットをダウンロードできるPythonファイルについても紹介。

[一色政彦,デジタルアドバンテージ]
「AI・機械学習のデータセット辞典」のインデックス

連載目次

データセット解説

 ARC浮世絵顔データセット(以下、浮世絵顔)は、浮世絵の「顔」画像データセットである(図1)。このデータセットには、浮世絵に関する作品名/役者/版元/絵師/上演年などの書誌情報といったメタデータと、目/口/鼻などの顔パーツと顔領域の座標データ(=機械学習で自動抽出した結果)といったアノテーションデータが含まれる。

図1 浮世絵顔データセットの例(引用) 図1 浮世絵顔データセットの例(引用)
この画像はGitHubリポジトリの公式データセットに含まれるサンプル画像から引用したものである。
立命館大学アート・リサーチセンター (2020): ARC所蔵浮世絵データベース. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/rdata.2.1

 浮世絵研究に機械学習やデータサイエンスの方法論を適用し、日本文化に関する新しいデジタル研究基盤を構築する(デジタル浮世絵研究)という目的で、ARC(立命館大学アート・リサーチセンター)によって元となる浮世絵画像とそのメタデータ(図2)が提供され、人文学オープンデータ共同利用センター*1によって浮世絵顔データセットとそのアノテーションデータ(図3)が作成された。

*1 データサイエンス共同利用基盤施設(ROIS-DS)のデータ共有支援事業の一つである「人文学オープンデータ共同利用センター(CODH:Center for Open Data in the Humanities)」では、日本の古文書から抽出したさまざまなデータセットを公開している。データセットのオープン化を推進することで「データサイエンスに基づく人文学(人文情報学)」という新たな学問分野の創出などを目指している。


図2 ARC浮世絵画像のメタデータ(引用) 図2 ARC浮世絵画像のメタデータ(引用)
この画像はGitHubリポジトリの公式データセットに含まれるサンプル画像から引用したものである。
立命館大学アート・リサーチセンター (2020): ARC所蔵浮世絵データベース. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/rdata.2.1

図3 浮世絵顔データセットのアノテーションデータ(引用) 図3 浮世絵顔データセットのアノテーションデータ(引用)
この画像はGitHubリポジトリの公式データセットに含まれるサンプル画像から引用したものである。
『ARC浮世絵顔データセット』(Yingtao Tian、ROIS-DS CODH作成、ARCから収集), https://doi.org/10.20676/00000394

 2021年6月現在の最新バージョンv1.0における浮世絵顔データセット全体は(9203件の浮世絵画像から抽出した)、

  • 合計1万6653枚

で構成される。

 作成する顔画像のサイズはカスタマイズできる。後述するコマンド指定例では256pxの正方形、明示的に指定しない場合は512pxの正方形となる。

引用のための情報

 浮世絵顔はCC BY-SA 4.0ライセンスとなっている。

  • 表示方法(アノテーションデータを利用する場合): 『ARC浮世絵顔データセット』(Yingtao Tian、ROIS-DS CODH作成、ARCから収集), https://doi.org/10.20676/00000394
  • 表示方法(メタデータや画像を利用する場合): 立命館大学アート・リサーチセンター (2020): ARC所蔵浮世絵データベース. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/rdata.2.1

 データセットに関する研究内容を参照する際に使える論文情報を以下にまとめておく。

利用方法

 実際に浮世絵顔を使うには、

に含まれるarc_download.py(Pythonファイル)を利用して、まずはARC浮世絵画像をダウンロードする。

 なお、GitHubリポジトリに含まれるPythonファイルを実行するには、事前準備として、

pip install -r requirements.txt

を実行しておく必要がある。その後、

python3 arc_download.py

を実行すればよい。さらに、

python3 face_extract.py                                               \
  --images_dir              ./scratch/arc_images/                     \
  --face_landmarks_file     ./scratch/arc_face.csv                    \
  --arc_metadata_file       ./scratch/arc_metadata.csv                \
  --new_images_dir          ./scratch/arc_extracted_face_images       \
  --new_face_landmarks_file ./scratch/arc_extracted_face_face.csv     \
  --new_arc_metadata_file   ./scratch/arc_extracted_face_metadata.csv \
  --new_size 256 \
  ;

画像サイズは256pxの正方形を指定している

を実行することで、顔部分を抽出して視覚化できる。これにより、浮世絵顔の画像群が抽出できる仕組みである。つまり、顔画像は最初から加工されているわけではなく、手元で自動処理により加工することになる。

 その他にも以下のようなPythonファイルが提供されており、さまざまな画像処理を自動化できる。

  • face_viz.py: 各顔のランドマークと推定境界ボックスを描画
  • fscs/infer.py: 浮世絵の色分解
  • sketchkerras/infer.py: 浮世絵の線画抽出

 また、メタデータやアノテーションデータは以下のようなCSVファイルで提供されている。

  • resource/arc_metadata.csv: ARC浮世絵画像のメタデータ
  • resources/arc_face.csv: 浮世絵顔データセットのアノテーション(顔のランドマーク)
  • resources/ufd_face.csv: オンライン公開されている「Ukiyo-e faces dataset」を用いて浮世絵顔データセットを拡張する際に使えるアノテーション

 メタデータやアノテーションデータの詳細、また上記のデータセットの拡張についてはGitHubリポジトリを参照してほしい。

「AI・機械学習のデータセット辞典」のインデックス

AI・機械学習のデータセット辞典

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。