機械学習に使うデータセットの著作権について

青木 優太

–はじめに–
機械学習を扱っている人が必ず一度は気にすることになるであろうデータセットの著作権について、要は使えるの?使えないの?というところから、ソースまで、まとめてみました。とりあえず今自分がやろうとしていることが著作権法的に適法なのか知りたい、という方や、本当に大丈夫なのか心配だから根拠が欲しい、という方が対象となります。自分自身、こういったことでかなり悩むことが多かったので、この記事を少しでも多くの同じ悩みを
持つ人に読んでもらいたいと思います。

※この記事で紹介しているサイトの内容と被る部分が多いのですが、結論と根拠だけ早く知りたいという方が多いと思うので、簡単にまとめ直しました。

※記事の内容は、あくまで個人の見解です。これによって発生する如何なる問題に対しても、責任は負いかねます。

 

目次

  1. 結論
  2. 具体的な例
  3. 法律の確認

 

 1.結論

★第三者が著作権を持つデータを元に学習させ、学習済みモデルを公開しても問題ない

 

そして….

「営利・非営利」を問わず↑は適用される

 

ただし、注意点として

機械学習のためのデータとして作られたデータセットなどの

データベースの著作物については、適用されない

 

 

機械学習を使う上で、これだけ知っていれば基本的には問題ないと思いますが、一応、生データ、DBに第三者の著作権がある場合の、それぞれの状況についても併せてまとめておきます。

 

①第三者の生データを収集し、データベース作成、学習用データセット作成、機械学習を一連の流れとして行い、当該学習済みモデルを提供、販売する行為。

 →OK

 

②第三者の生データからデータベースを作成し、当該データベースにラベル処理等をして学習用データセットを作成し、当該データセットを提供、販売する行為。

 →NG

 

③第三者の学習用データセットを利用して機械学習を行って学習済みモデルを生成し、当該学習済みモデルを提供、販売する行為。

 →NG

 

④第三者の学習済みモデルに入力・出力を行い、当該入力・出力を取り出して機械学習を行って別の学習済みモデルを生成し、当該学習済みモデルを提供、販売する行為。

 →OK

 

 

当然ではありますが、生データ、DBが第三者の著作権がない場合は、以上全ての場合において、問題ありません。

 

※機械学習用データセットを使う場合は、そのデータセットの作成者の著作権に準ずるので、データセットの配布形態により、使用の可否が決まる。すなわち、無料配布されており、自由に使ってくださいというようなデータセットについては、自由に使用可能と考えられる。

 

 2.具体的な例

 

学習にアニメのデータセットを使えるのか、それによって作ったものを公開してよいのか、という点について調べたところ、以下二つの記事を見つけました。

 

「日本は機械学習パラダイス」 その理由は著作権法にあり

第三者のデータから学習用データセットや学習済みモデルを適法に生成・利用できるのはどのような場合か具体的に考えてみる

 

 

 要約すると、第三者が著作権を持つデータを元に学習させ、学習済みモデルを公開しても問題ない、ということになります。


※例:エロゲの画像をどれだけ学習用データに使っても、営利・非営利を問わず、そこから自動生成されるものを公開することに問題はない(ただし、契約上の制限等が無ければ)

 従って、アニメ画像生成は著作権法的にはホワイトと考えられます。

 

 3.法律の確認

 

著作権法

第十一条 二次的著作物に対するこの法律による保護は、その原著作物の権利に影響を及ぼさない。

→データセットの著作物に対する法律の保護は、その元となる各々のデータの権利に影響を及ぼさない。

→つまり、データセットの著作権とデータの著作権は別物と解釈できます。

 

第十二条 編集物(データベースに該当するものを除く。以下同じ。)でその素材の選択又は配列によって創作性を有する者は、著作物として保護する。

2 前項の規定は、同行の編集物の部分を構成する著作物の著作者の権利に影響を及ぼさない。

→ここまで、データベースに該当するもの(配布されているデータセットなども含む)は除かれています。

 

第十二条の二 データベースでその情報の選択又は体系的な構成によって創作性を有する者は、著作物として保護する。

2 前項の規定は、同行のデータベースの部分を構成する著作物の著作者の権利に影響を及ぼさない。

→データセット(条文ではデータベースに該当するもの)を二次的著作物と見なさなくとも、同様にデータとデータセットは別物と解釈できます。

 

結局、「第十二条」と「第十二条の二」はほとんど同じことを言っているように見えるので、個人的には、まとめてしまっても良い気がします。

第四十七条の七 著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。
(電子計算機における著作物の利用に伴う複製)
→結論で述べた通り、機械に学習させるためのデータとして使う分には、著作権を意識しなくてよいと解釈可能。ただし、そもそも機械学習のために作られたデータセットについては、この限りではないと記されている。
青木 優太 明治大学中退
春から秋にかけてはほぼ毎日アニメTシャツを着ている
趣味は二次元の女の子を愛でること