焦点:学習データ争奪戦、「廃れたSNS」のコンテンツに群がる生成AI企業
ロイター / 2024年4月12日 15時35分
Katie Paul Anna Tong
[ニューヨーク 5日 ロイター] - 2000年代初頭、フォトバケットは世界一の画像管理・共有サイトだった。当時人気だったマイスペースやフレンドスターといったサービスのメディア管理を担うバックボーンとして7000万人ものユーザーを抱え、米国のオンライン写真市場の半分近くのシェアを握っていた。
現在、フォトバケットを使い続けているユーザーはわずか200万人にまで激減し、スタッフ数も40人程度となった。しかし、生成AI(人工知能)革命のおかげで、フォトバケットは「第2のピーク」を迎えようとしている。
コロラド州エドワーズを本拠とする同社のテッド・レナード最高経営責任者(CEO)はロイターの取材に対し、文章による指示に応じて新たなコンテンツを生み出す生成AIの学習に、フォトバケットが持つ130億点の写真と動画の利用を認める件で、複数のテクノロジー企業と交渉中だと明かした。
交渉中のレートは写真1点あたり5セントから1ドル(約152円)、動画は1本あたり1ドル以上だという。買い手や希望する画像の種類に応じて価格には大きな幅がある。
「交渉相手の企業は、もっとたくさん必要だと言う」とレナードCEOは語る。ある買い手からは、10億本以上の動画がほしいと言われた。フォトバケットでは賄いきれない量だ。
「それだけの量をどこで確保しようというのか」
フォトバケットでは、これまで報じられていなかったこの交渉の相手企業について、営業秘密だとして具体名を明かさなかった。だが交渉が行われているという事実からは、フォトバケットが抱えるコンテンツが数十億ドルもの価値を生む可能性だけでなく、生成AI技術をめぐる覇権競争のもとでデータ市場が活況を呈していることがうかがわれる。
グーグルやメタ、マイクロソフト傘下のオープンAIといったテクノロジー大手は、対話型AI「チャットGPT」などの生成AIモデルを訓練するために、インターネット上を流れる大量のデータを無料で収集してきた。各社はこうした「スクレーピング」について合法で倫理的だと主張してきたが、これに対して著作権者が次々に訴訟を起こしているのが現状だ。
その一方で、テクノロジー大手は、「有料の壁」やログイン画面の背後にあるコンテンツを密かに買い集めている。チャットのログからとっくに忘れていた個人的な写真に至るまで、廃れたソーシャルメディア上に残るあらゆるものが陰で取引されるようになっている。
法律事務所クラリス・ローのエドワード・クラリス氏は、「今まさに、スクレーピングできない非公開コンテンツを持っている著作権者の奪い合いが生じている」と語る。クラリス・ローでは、写真や動画、書籍のアーカイブについてAI学習のためにライセンス供与する1件数千万ドル規模の交渉について、コンテンツ所有者の相談に応じているという。
ロイターでは、関連企業の現・元幹部、弁護士やコンサルタントなど30人以上に話を聞き、この誕生まもない市場について取材した。購入されるコンテンツの種類、合意された価格相場、さらには本人への通知や同意取得がないまま個人データがAIモデルに流出するリスクをめぐって浮上している懸念などについて、詳細な情報を得た。
オープンAIやグーグル、メタ、マイクロソフト、アップル、アマゾンは、いずれもこの記事のために具体的なデータ交渉や協議についてコメントすることを控えてた。グーグルは、データプライバシー保護に関する行動規範を示し、違反が発見されれば、「最悪の場合はサプライヤーとの契約破棄も含め、即座に対応する」と述べた。
<生成AI用学習データのゴールドラッシュ>
生成AIの基礎モデルの開発企業に対しては、いわゆる「学習」と呼ばれるプロセスでシステムに投入する膨大な量のコンテンツについて説明責任を求める圧力が高まっている。この「学習」には大きな計算能力が必要で、完了までに数カ月かかることも珍しくない。
スクレーピングによりウェブページから無料で取得したデータの膨大な集積がなければ、生成AI技術はコスト面で成立しない、とテクノロジー企業は言う。データ集積を行う非営利団体「コモン・クロール」が提供するデータセットがその1例で、生成AI企業は「入手可能な公開データ」と呼ぶ。
それにもかかわらず、生成AI企業の手法は著作権訴訟や規制強化を招き、ウェブサイトの公開元ではスクレーピング防止のコードをサイトに追加する動きも出ている。
AIモデル開発側は、コンテンツ所有者との交渉や、こうした需要を狙って出現した新興のデータ仲介産業を利用して、リスクヘッジとデータの供給確保に着手している。
チャットGPTが登場した2022年末以降の数カ月間、メタやグーグル、アマゾン、アップルといった企業は、いずれもストック画像提供事業のシャッターストックとの間で、同社のライブラリーに保存された数億点の画像や動画、音楽ファイルをAI学習に使用する契約を結んだ。こうした契約に詳しい人物が明らかにした。
シャッターストックのジャロッド・ヤヘズ最高財務責任者によると、当初テクノロジー大手との契約は2500─5000万ドル規模だったが、大半がその後増額されたという。より規模の小さなテクノロジー企業も後に続き、ここ2カ月は「大忙し」だったとヤヘズ氏は言う。ヤヘズ氏は個々の契約についてはコメントを控えると述べた。
シャッターストックと競合するフリーピックはロイターの取材に対し、2億点の画像アーカイブの大半について、1点あたり2-4セントでライセンス供与する契約をテクノロジー大手2社と結んだと述べた。ホアキン・クエンカ・アベラCEOは、類似の契約5件についても交渉中だとしたが、契約先の名称は言えないとしている。
早くからシャッターストックと契約していたオープンAIは、AP通信社とアクセル・スプリンガーを含む少なくとも4社の報道機関ともライセンス契約を結んでいる。これとは別に、ロイター・ニュースを保有するトムソン・ロイターは、AI大規模言語モデルの学習を支援するためニュースコンテンツをライセンス供与する複数の契約を結んだと述べているが、詳細については明らかにしていない。
<「倫理的に調達した」コンテンツ>
AI専業のデータ企業が集まる産業も成立しつつある。ポッドキャストや短編動画、デジタルアシスタントとのやり取りなど現実世界のコンテンツの権利を確保しつつ、単発請負労働者のネットワークを構築し、ゼロから生成したオリジナルの視覚素材や音声素材も作成する。
シアトルを拠点とするデータ企業ディファインド・ドット・エーアイのダニエラ・ブラガCEOはロイターに対し、グーグルやメタ、アップル、アマゾン、マイクロソフトなど幅広い企業にデータをライセンス供与していると語った。
料金は契約先やコンテンツ種別によって異なるというが、ブラガCEOによれば、一般に画像1点1─2ドル、短編動画1本2─4ドル、長編動画は1時間あたり100─300ドルなら、各社とも不満はないという。ちなみに、テキストの相場は1語あたり0.001ドルで、扱いに最も配慮が必要となるヌード画像は1点5─7ドルだという。
ディファインド・ドット・エーアイは、こうした収益をコンテンツ提供事業者と折半しているという。同社が提供するデータ群は「倫理的な調達」をうたっている。データ提供者からの同意を得ており、個人を特定できる情報は削除している、というのがブラガCEOの説明だ。
データ提供元の1社であるブラジル拠点の起業家は、契約総額の約20─30%を写真やポッドキャスト、医療データの所有者に支払っていると話す。
この起業家は、秘密重視の事業のため、社名を明かさないことを条件に取材に応じた。ポートフォリオの中で最も高く売れるのは、テクノロジー企業が禁止している露骨な暴力などのコンテンツをブロックするAIシステムの学習に使われる素材だという。
こうした需要に応じるため、この企業では犯罪現場や紛争下の暴力、外科手術の画像を、それぞれ主として警察、フリーランスの写真ジャーナリスト、医学生から入手している。こうした画像の配布がよく見られる南米やアフリカで入手することが多いという。
10月の紛争開始以降、ガザで取材するフリーランス写真家からも画像を入手し、今回の衝突の発端となったイスラエルでの画像もいくつかあるという。
この企業は、画像の匿名化や注釈付与の作業のため、暴力による負傷を見慣れている看護師経験者を雇っている。訓練を受けていない目には刺激が強すぎるのだという。
<「リスキーに思える」>
ライセンス供与により法的・倫理的な問題もある程度解決される可能性があるが、取材に応じた業界関係者の多くは、フォトバケットのような古いウェブサービスのアーカイブを最新のAIモデルの素材として再利用するとなれば、特にユーザーのプライバシーの点で別の懸念が生じる、と指摘する。
AIシステムでは、学習で消化したデータをそっくりそのまま再利用してしまう例が報告されている。たとえば画像配給会社ゲッティ・イメージズの「透かし」が入った画像や、米紙ニューヨーク・タイムズの記事と一言一句変わらない段落、実在の人物の画像などがそのまま出力される、などだ。つまり、数十年前に投稿されたプライベートな画像や個人的な思いが、本人への通知や明示的な同意なしに生成AIの出力に登場する可能性が生じてしまう。
フォトバケットのレナードCEOは、法的な根拠はしっかりしていると述べ、10月に改訂された同社の利用規約では、アップロードされたコンテンツをAIシステムの学習目的で販売する「無制限の権利」が認められていると語る。同氏は、データのライセンス供与は広告販売に代わる収益源だと考えている。
「私たちも経費の分は稼がなければならない。ライセンス料が入れば、無料アカウントを維持し続けるうえでもプラスだ」とレナードCEOは言う。
ディファインド・ドット・エーアイのブラガCEOは、フォトバケットのような「プラットフォーム」企業からコンテンツを取得することは避けており、インフルエンサーが自分で撮ってソーシャルメディアに投稿した写真を調達する方が望ましいとしている。その方がライセンス権の所在が明確になるからだ。
プラットフォームが抱えるコンテンツについて、ブラガCEOは「とてもリスキーに思える」と語る。「AIの学習素材にすることをまったく承認していない人の画像にそっくりのものをAIが出力したら、問題になる」
AIによるコンテンツの利用をライセンスの形で認めているのはフォトバケットだけではない。ブログ会社タンブラーの親会社オートマティックは先月、「特定のAI企業」とコンテンツを共有していると表明した。またロイターは2月、米オンライン掲示板レディットがグーグルとの間で、グーグルのAIの学習にコンテンツを提供することで合意したと報じた。
(翻訳:エァクレーレン)
この記事に関連するニュース
-
アングル:AIで出遅れのアップル、近く戦略公表 設備コスト抑制へ
ロイター / 2024年5月7日 18時23分
-
米グーグルとニューズ、AI関連コンテンツ開発で提携=報道
ロイター / 2024年5月1日 9時1分
-
米グーグルの生成AI巡り集団提訴、写真家や漫画家 「作品を無断使用」
ロイター / 2024年4月30日 9時28分
-
米IBM、クラウド企業ハシコープ買収で合意近づく=関係筋
ロイター / 2024年4月24日 10時41分
-
アングル:メタのニュース配信停止、政治分野で高まる情報操作リスク
ロイター / 2024年4月16日 15時20分
ランキング
-
1初めての上京での住まい、失敗したことは? 3位「間取りが不便」、2位「想像より狭かった」、1位は?
J-CAST会社ウォッチ / 2024年5月12日 21時15分
-
2無味のミネラルウォーターが若年層に好まれる理由 23年過去最高の販売実績を記録した「サントリー天然水」 ブランドの牽引役は天然水本体
食品新聞 / 2024年5月12日 17時1分
-
3中央線「グリーン車導入」の増収効果は?JR東日本が明らかに 投資額は約860億円
乗りものニュース / 2024年5月13日 7時12分
-
4京葉線だけの問題か? 快速の“大幅減”地域に厳しいダイヤ改正が断行される根本原因 議論に欠落した視点
乗りものニュース / 2024年5月13日 9時42分
-
5危険な「第4種踏切」なぜ無くならない? 事故が起きてから重い腰を上げる行政
乗りものニュース / 2024年5月12日 9時42分
記事ミッション中・・・
記事にリアクションする
記事ミッション中・・・
記事にリアクションする
エラーが発生しました
ページを再読み込みして
ください