「断末魔の叫び」: OpenAIが記事をスクレイピングしたとニュース発行者35社が主張


最高経営責任者(CEO)

OpenAI CEO のサム・アルトマン氏は、2025 年 6 月 2 日にサンフランシスコのモスコーナ センターで開催されたスノーフレーク サミットで講演します。

ジャスティン・サリバン/TNS/ゲッティイメージズ

全国の新聞社は、AIモデルをトレーニングするためにWebサイトをスクレイピングした疑いでOpenAIとMicrosoftを訴えている。

水曜日にニューヨーク州南部地区連邦地方裁判所に起こされたこの訴訟は、ChatGPTのバージョンを認定するためにライセンスのないコンテンツとペイウォールを使用することで、OpenAIとMicrosoftが出版社の著作物から利益を得たと主張している。これらの行為により、人々が原告から直接コンテンツにアクセスすることができなくなり、ニュース編集局は広告収入と購読収入を失ったと訴状は主張している。 (Microsoft は OpenAI を所有していませんが、同社のかなりの少数株を所有しており、OpenAI の大規模な言語モデルを実行するために使用されるコンピューティング インフラストラクチャを所有しています。)

記事はこの広告の下に続きます

大部分が独立系で地元資本の新聞発行会社35社が共同原告として署名した。彼らは、サウス・レークタホのタホ・デイリー・トリビューン、トラッキーのシエラ・サン、ニードルズのニードルズ・デザート・スターというカリフォルニア州の3紙を含む、33州の約400の報道機関を代表している。

「出版社のジャーナリズムは被告の爆発的な成長に不可欠であり、もし被告が出版社のコンテンツを盗んだり、剥奪したり、悪用したりした責任を問われなければ、命令され享受してきた人工知能ブームは、アメリカで最も信頼されているニュースソースであり続ける地元ジャーナリズムにとって終焉を告げることになるだろう。」

OpenAIの広報担当者ドリュー・プサトリ氏は木曜日の声明でSFGATEに対し、同社は「公開されているデータ」に基づいてモデルをトレーニングしており、その成果は「フェアユースに基づいている」と述べた。

しかし、カリフォルニア大学バークレー校ジャーナリズム学部のマイケル・ボールデン学部長は、書かれた作品がオープンなインターネット上に公開される可能性があるからといって、著作権が放棄されるわけではないと主張する。同氏は、報道機関の出版方法は、ニュース取材に対する記者や編集者への報酬から実際の出版費用に至るまで、「高価な取り組み」であると強調した。

記事はこの広告の下に続きます

「このコンテンツは無料で利用でき、空から降ってきたという考えは正確ではない」とボールデン氏は金曜日のインタビューで語った。 「ジャーナリズムを含む作品の制作には知的な努力が必要であり、企業はそれに対して補償される必要がある。」

SFGATEは、広告主が訴訟の原告として名指しされているカリフォルニア州の新聞3紙の編集者に連絡を取った。タホ・デイリー・トリビューン紙とシエラ・サン紙の編集者レイニー・グリフォ氏はコメントを拒否したが、同紙の発行元であるオグデン・ニュースペーパーズ社の代表者はコメントの要請に応じなかった。 Microsoftも公開前のコメント要請に応じた。

原告側の弁護士マット・プラトキン氏は金曜日、SFGATEへの声明で、OpenAIが著作権で保護された素材を「組織的かつ意図的に盗み」、それが結果的に地域社会に損害を与えたと主張した。

「これらの行為は違法であるだけでなく、すでに財政的圧力や困難に直面している重要なコミュニティ新聞にとって有害で​​ある」と同氏は述べた。 「地元の記者は、クレジットや報酬なしに自分の作品を盗むことは許されないし、新しいテクノロジーには著作権法の適用除外が伴うわけではない。」

記事はこの広告の下に続きます

ピュー研究所の分析によると、現代のメディア環境は常に進化しており、印刷物の人気は過去最低となっています。ロイター研究所の調査によると、ソーシャルメディアや代替メディアが伝統的なジャーナリズムの領域に食い込んできたため、ニュースウェブサイトの読者さえも減少しているという。訴訟では、OpenAIの重要性がますます高まっている一方で、原告らはサブスクリプション、広告、コンテンツライセンスによる収益を「奪われている」と主張している。

「広告主はこの取り組みを維持するために数十億ドルを費やした」と申請書には記載されている。 「被告らは一銭も補償することなく、これらすべてを自力で行った。」

OpenAI の ChatGPT のような大規模な言語モデルは、毎秒膨大な量のデータを処理します。大きな規模で機能し、増加する使用と精度への要求に対応するには、テクノロジーに大量の情報を供給する必要があります。企業はこれを行うために、ニュース記事へのリンクを含む Web の大きな画像を取得し、それをチャットボットのコードに入力して応答を微調整します。このデータのテキストは「トークン」に分割され、モデルはそれを記憶し、ツールを使用する人々からの質問への応答方法をより適切に予測するために使用します。

OpenAI は、新しいモデルをトレーニングするためにますます大規模なデータセットを使用し続けました。訴訟で引用されたOpenAIの透明性レポートによると、ChatGPT-2は、Redditに投稿された著作物への4500万のリンクを含む単一のデータセットでトレーニングされたという。しかし、次のバージョンである ChatGPT-3 は、訴訟で「インターネットのコピー」と呼ばれる Common Crawl を含む、これらのタイプのデータセットのいくつかでトレーニングされました。訴訟では、Common Crawlには原告のペイウォールコンテンツで構成される数十万のトークンが含まれていると主張している。

記事はこの広告の下に続きます

画像

楽しみにしていてください。

登録すると、次のことに同意したものとみなされます 利用規約 あなたの情報が当社のリストに記載されているとおりに使用されることを確認します プライバシーポリシー

The New York Times や The Intercept など、他のいくつかの大規模な報道機関も OpenAI と Microsoft に対して同様の主張を行っています。リソースが限られている小規模なニュース編集局にとって、特にOpenAIが米国史上最も重要な新規株式公開の1つとなる株式公開の申請に向けて順調に進んでいることから、これらのAI企業に対する補償をめぐる戦いは「デビッドとゴリアテ」のような雰囲気があるとボールデン氏は述べた。

ボールデン氏はSFGATEに対し、多くの組織がこの取り組みに協力することを望んでいると語った。出版社が制作した作品に対して報酬を受け取るだけでなく、AIがより強力になるにつれて地元の報道機関や記者を保護するために著作権法を強化する必要があるとボールデン氏は述べた。同氏は、AI開発者は平等な情報環境を構築する方法について広告主と継続的に議論する必要があるとも付け加えた。

「これらのモデルはますます強力であり、進化し続けるでしょう。誰かが作成および所有する作品が許可なく取得され、まったく別の会社に利益をもたらす方法で再利用されないように、基準を確実に設定する必要があります」とボールデン氏は述べた。

記事はこの広告の下に続きます



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *