連載
» 2019年03月29日 05時00分 公開

“おいしいデータ”で、成果が出るAIモデルを育てる(1):無断でダウンロードしたデータでもAI開発に使える? 改正著作権法を弁護士が解説 (1/2)

AIモデル開発を目的とするなら、著作権者に許諾を得ずとも、データのダウンロード、整形、加工がより広い範囲で行えるようになった。弁護士法人STORIAの柿沼太一弁護士が、2019年1月1日に施行された「改正著作権法」のポイントとAIモデル開発時の注意点について解説した。

[石川俊明,@IT]

 深層学習の登場により、「音声認識」や「画像認識」にAIモデルを活用してサービスを提供する企業が増えてきた。

 AIモデルを開発するには、大量のデータを用意してAIモデルに学習させ、目標の精度が出るかどうかAIモデルを評価する必要がある。しかし、「大量のデータを用意するのに時間がかかる」「AIモデルの精度が低くサービスに適用できない」など、サービスを開発、提供する前から壁が立ちはだかるケースが少なくない。

 理由はさまざまだが、頓挫するAI開発プロジェクトが少なくない中で、AIモデルを活用してサービスを展開する企業は、どのように大量のデータを用意したり、AIモデルの精度を高めたりしているのだろうか?

 本連載「“おいしいデータ”で、成果が出るAIモデルを育てる」では、各社のモデル開発事例や活用事例を通じて、エンジニアがデータやAIにどう向き合っていけばAIモデルを活用したサービスを提供できるのか、ヒントを探っていく。

 AIモデルを開発する企業の開発事例や活用事例について触れる前に、第1回の本記事では、データを収集したり、AIモデルを開発したりする際に関連する法律の動向や注意点を押さえておく。2019年3月6日に開催された自動翻訳シンポジウムで弁護士法人STORIAの柿沼太一氏が講演した内容を要約してお伝えする。

2019年1月1日に施行された「改正著作権法」はAIモデル開発にとって重要

 柿沼氏は、AIモデル開発と密接に関わっている著作権法について、2019年1月1日に施行された「改正著作権法」と併せて説明した。

弁護士法人STORIA 柿沼太一氏 弁護士法人STORIA 柿沼太一氏

 「著作権法が対象としている『著作権』とは、複製権や上映権、公衆送信権など複数の権利が『束』になったものと理解するのがよい。一方、著作権法には著作権者の権利を制限し、著作権者の許諾なく著作物を利用できる『権利制限規定』がある。例えば『私的使用のための複製』や『引用』は、権利制限規定の一種であり、著作者の許諾なく行える。2019年1月1日に施行された改正著作権法では、AIモデル開発をさらに加速する重要な改正が行われた」

 柿沼氏が重要視するのは「著作権法第三十条の四」だ。この条文により「情報解析」を目的とする場合は、著作権者の利益を不当に害しない場合において、方法を問わず、著作物を利用できる(著作権法第三十条の四第二号)。

著作権法第三十条の四

 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。

 一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合

 二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合

 三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合

 「改正前の著作権法にも、この第三十条の四と同趣旨の条文があった。旧四十七条の七だ。旧四十七条の七における最大の特徴は、著作物を利用できる範囲が非営利目的に限定されていないことだった。日本以外にも同様の規定があるが、全て非営利目的や研究機関による利用に限定されている。ただ、旧四十七条の七では、情報解析目的で著作物を利用することができるのは『記録媒体への記録又は翻案』までだった。改正著作権法で、利用できる範囲が広がり、いずれの方法によるかを問わず著作物を利用できることになり学習用データセットの譲渡や公衆送信なども行えるようになった」

Webで収集したデータを基に作成した学習用データセットを公開、販売したり、コミュニティーで学習用データセットを共有したりできるようになった

 一方で、データを収集したり、AIモデルに学習させたりする際は当該作業を行う「場所」に気を付けなければならないという。

 「ある行為について、どこの国の法律が適用されるかという『準拠法』の問題に気を付ける必要がある。著作権法の場合、著作物の『利用行為地』における法律が準拠法とされる。しかし、インターネットを利用する行為の場合、どこが『利用行為地』であるかの解釈は難しい。著作物の利用行為を行う『サーバの所在地』を『利用行為地』とするのが一つの考え方だ。例えば、AWS(Amazon Web Services)を利用して、Webサイトのクローリング、学習用データセット生成、AIモデル生成行為を行う場合、サーバのリージョンを海外に設定すると、著作権法三十条の四が適用されないと考えられる。『日本国内にサーバを用意し、日本国内に居る人物が同サーバを利用してデータを収集したり、整形や加工をしたりして学習行為を行う場合』であれば、著作権法三十条の四が適用されると思われるが、その他のパターンでは適用されるかどうかが不明確なので気を付けるべきだろう」

Web検索で収集した画像や文章のデータセットを元にAIモデルを生成しても大丈夫?

 AIモデルを開発するためにデータを収集する際、インターネットなどを通じてデータを収集する方法や、データ保有者との間で何らかの契約を結んでデータ提供を受ける方法などがある。先述の通り、AIモデルを開発するために、インターネットなどを通じてデータをダウンロードしたり、加工したりすることは著作権法三十条の四が適用され、「私的利用目的の複製」や「引用」と同様に、原則として問題なく行える。

 柿沼氏は「改正著作権法で法的リスクは緩和されたとはいえ、データ収集には契約リスクがある。『データの種類』と『データを取得する方法』を組み合わせて考えることで、どんなリスクが潜んでいるか明らかにできる」として、2つの例を紹介した。

 1つ目の例は、公的機関が特段の利用条件なく公開している過去の金融データを基に、将来の株価の値動きを予測するAIモデルを開発するケースだ。このケースの場合、金融データは誰かが「創作」したものではなく、事実について述べたデータにすぎないため何かの法的な権利(例えば著作権など)が発生しているということはない。また、特段データの利用規約に同意していない場合には、契約リスクも発生しない。

 2つ目の例は、電子書籍サイトで手塚治虫氏の漫画本を購入し、デジタルデータの漫画画像を基に「手塚治虫風キャラクター」を生成するAIモデルを開発するケースだ。このケースの場合「契約リスクが発生する」と指摘する。

 「『Kindleストア』のような電子書籍サイトで購入した本のデータを利用する場合は、電子書籍サイトの利用規約に同意しているはずで、電子書籍サイトの利用規約には通常、『非商用で閲覧する目的でのみデータを利用できる』という条文がある。従って、このケースでは、仮に著作権法上は問題ないとしても、電子書籍サイトの利用規約違反となる可能性が高い」

 また、仮にAIモデルの学習用データであったとしても、著作権法三十条の四が定める「当該著作物の種類及び用途に当該利用の態様に照らし著作権者の利益を不当に害することとなる場合」には、それらのデータを無断で利用したり、販売したりすることは著作権侵害に当たることを指摘した。

 「著作権者の利益を不当に害する場合は、著作権侵害に当たる可能性がある。例えば、単に手塚治虫氏の漫画本を、誰でもそのまま読める形式でデジタルデータ化して『手塚治虫風キャラ生成用データセット』として販売する行為は、購入者がそのまま漫画本を読めるため『著作権者の利益を不当に害することとなる場合』に該当し、著作権侵害になると思われる」

       1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。