https://www.flickr.com/photos/mikemacmarketing/30188201497

ネット上の「再使用が可能」なコンテンツの利用に潜むリスク

AI /

先日、IBMがAI(おそらく深層学習だろう)を利用した顔認識システムの学習に、写真投稿サイトFlickrに掲載された100万枚の写真を利用していたことが報道され、人工知能の開発に取り組む界隈で、少し話題になった。

ZDNet Japan「IBMがAI顔認識のトレーニングにFlickrの写真利用–ユーザーの同意がないとして物議」

詳細はリンク先の記事を読んでいただくとして、論点となっていたのは「CC(クリエイティブコモンズ)ライセンスの表記で再利用可能とされていたのに、なぜ使ってはいけないのか?」ということである。

CCライセンスをごく簡単に説明すると、著作者がネット上で著作物を公表する際、その利用条件を予め自己宣言できるというものである。ネットに掲載する目的は、何も単純な商用目的の再利用だけではなく、非営利目的であれば自由に使ってほしいとか、二次利用や改変をしなければ利用可、というような細かな条件に基づいた再利用もありうる。

CCライセンスは、こうした著作者のニーズを適正に表現するための共通ルールとして、世界的にも普及している。たとえばGoogleの画像検索には「ツール」という項目の中に「ライセンス」というタブがあり、前述のような条件に基づいた検索ができるようになっているが、これもCCライセンスやその他の枠組みを用いたものだ。

今回IBMが用いた画像データは、CCライセンス上では再利用が可能なものだった。ではなぜ、議論になったのだろうか。その答えは、前日の記事中にあった、CCライセンスを管理する非営利団体クリエイティブコモンズのCEOであるRyan Merkley氏のコメントにある。

「当団体のツールは著作権問題を解決するために設計されたものであり、それはうまくいっている。だが、著作権は、プライバシーや研究倫理、監視用AIに対処するのに適切なツールではない」(Merkley氏)

もう少し噛み砕いてみよう。CCライセンスは、確かに著作権問題を解決するためのツールである。だから著作権管理という論点においては、IBMによる画像データ利用は、何ら問題はない。

しかし、画像データの被写体のプライバシーは、どうだろうか。少なくとも被写体自身は、IBMの顔認識システムの学習に用いられるとは、まったく考えていなかったはずである。そしてそうである以上、IBMが学習に用いることに「同意」した覚えはないだろう。

あるいは、そもそもFlickrに掲載されること自体が、未同意だったかもしれない。これはテクノロジーの如何を問わず、写真撮影とその公開において昔からある、写真が公開された際に被写体はそれを同意していたか(撮影者がそれを通知していたか)、という問題でもある。

その際、CCライセンスはあくまで撮影者(掲載者)と投稿サイト(及びそれを通じて写真を閲覧するネット利用者)との関係だけを整理したものであり、それ以外についてはCCライセンスの範疇にはない、というのが前述のMerkley氏のコメントである。だとすると、被写体のデータそのものを必要とする今回のIBMのような場合、果たしてどのように整理されるべきなのだろうか--今回の議論の本質は、そこにある。

IBMによれば、今回の目的は、「AIの公正性を損なう恐れのあるバイアスがかからないよう、研究者を支援することを意図」した学習だという。だとするとそれは社会的に正しい動機であり、ぜひ積極的に学習が深められるべきだ。一方、CCの枠組み自体が今回の利用とは目的外(あるいは想定外)だという指摘も、IBMへの責任追及ではなくルールの未整備という社会課題の提起として、傾聴すべきであろう。

AIシステム開発の垣根は現在も日に日に下がりつつあり、今後は多くの人がAIシステムの開発に挑めるようになるのは間違いない。そして実際に開発に携わると、学習データやアノテーション(タグ付け)データの取得が容易ではないことに、気づかされる。だからこそ、ネットに助けを求めてしまいがちな心理はよく分かる。

しかしながら、たとえ動機が善であったとしても、手続きに瑕疵があれば、その価値は損なわれる。だとしたら、「これはちょっとおかしいのでは?」という物言いには、できる限り耳を傾けてみること、そして自らでは解けない社会課題であるとしたら、それを社会的に解決できるように声を上げること。AIシステムの成熟には、そうした作り手の姿勢が期待されているように思える。