訴訟頻發(fā)！AI訓練“盜用”版權內容，建立共享數(shù)據(jù)庫迫在眉睫？

2025-01-20 20:29

來源：澎湃新聞·澎湃號·湃客

AI很強，但并不能無中生有。

AI具備的能力，本質上來自算法和訓練大模型所用的數(shù)據(jù)，數(shù)據(jù)的數(shù)量和質量會對大模型起到決定性作用。此前OpenAI工作人員表示，因沒有足夠多的高質量數(shù)據(jù)，Orion項目（即GPT-5）進展緩慢。不得已之下，OpenAI招募了許多數(shù)學家、物理學家、程序員原創(chuàng)數(shù)據(jù)，用于訓練大模型。

AI公司在數(shù)據(jù)方面面臨的難題遠不止于此，因頻頻侵權造成的版權問題，正困擾著AI公司。大型AI公司有足夠的資源和精力應對侵權問題，小公司一旦收到大量起訴，很可能遭受滅頂之災。

版權，AI行業(yè)的又一塊絆腳石

自從ChatGPT誕生，版權之爭就已開啟。最初反對AI的人以畫師為主，AI公司用他們的作品訓練大模型，又搶了他們的工作。但當時AI大模型訓練所需的數(shù)據(jù)量不夠大，不至于得罪太多人，畫師群體規(guī)模小，能夠發(fā)出的聲音和起到的效果有限。

可AI大模型功能不斷強化能力的同時，對于數(shù)據(jù)的需求量也與日俱增。除了公開的科學論文，AI公司還會抓取社交平臺上的帖子、媒體發(fā)布的新聞報道等信息。社交平臺上的帖子還好說，要求不是特別嚴格，可媒體上的新聞報道卻存在版權。

（圖源：豆包AI生成）

2024年11月底，加拿大《多倫多星報》及旗下的五家媒體，向OpenAI發(fā)起訴訟，稱其在未經允許的情況下從加拿大媒體抓取內容訓練大模型，要求OpenAI為使用的新聞報道每篇支付2萬加元（約合人民幣10萬元），總金額估計有數(shù)十億加元。

面對《多倫多星報》的指控和天價賠償要求，OpenAI自然矢口否認，并發(fā)表聲明稱訓練AI大模型以公開數(shù)據(jù)為基礎，以公平使用和國際版權原則為依據(jù)，對于創(chuàng)作者是公平的。

不只是加拿大媒體，美國的The Intercept、《紐約時報》、Raw Story、AlterNet ，印度的ANI，以及德國版權機構GEMA等，都曾起訴過OpenAI。

因視頻生成和音頻生成大模型日漸成熟，AI公司引發(fā)的版權問題也愈發(fā)嚴重。2024年6月，美國唱片協(xié)會起訴了Suno和Udio兩家AI音樂公司。

國內AI行業(yè)存在相同的問題，例如位列中國AI大模型六小龍之一的MiniMax，因未經授權使用愛奇藝的素材訓練海螺AI，日前遭遇愛奇藝起訴，被索賠10萬元。

（圖源：MiniMax）

更有甚者，不但侵犯作品的版權，還侵犯了公眾人物的肖像權。例如著名的AI孫燕姿、AI雷軍事件，某些網友利用AI合成技術讓孫燕姿演唱各種歌曲，讓雷軍“口吐芬芳”。2024年4月23日，國內首例AI生成聲音人格侵權案宣判，被侵權的殷女士獲勝，侵權公司賠償其25萬元，總算給創(chuàng)作者們一絲安慰。

OpenAI面對侵權起訴時，雖表示訓練AI大模型以公開數(shù)據(jù)為基礎，但公開并不意味著數(shù)據(jù)無版權。攝影師拍攝的圖片、編輯創(chuàng)作的文章等內容，都存在版權，放任AI公司隨意抓取，無疑是在侵害創(chuàng)作者的利益。

長此以往，創(chuàng)作者的創(chuàng)作熱情和信心難免受到打擊，減少內容創(chuàng)作。如此一來，訓練AI大模型的數(shù)據(jù)也將更加捉襟見肘，影響到AI行業(yè)的正常發(fā)展。如何維護創(chuàng)作者的合法權益、打擊侵權行為，已成為AI行業(yè)必須解決的問題。

成立“共享數(shù)據(jù)庫”勢在必行

前段時間國內AI公司DeepSeek基于數(shù)據(jù)蒸餾方案，以其他AI大模型為教師模型，訓練出了參數(shù)量和占用資源更少，且訓練成本極低的DeepSeek-V3大模型。但因回答用戶問題時自稱“ChatGPT”，DeepSeek-V3遭遇OpenAI CEO山姆·奧特曼嘲諷。自認為沒有侵權加拿大媒體的OpenAI，面對其他AI公司對他們可能存在的侵權行為卻表現(xiàn)得十分不滿。

無論山姆·奧特曼如何否認，OpenAI侵權的行為已經坐實，且侵權問題在整個AIGC行業(yè)普遍存在。

為處理更多、更復雜的問題，未來先進AI大模型的參數(shù)還會不斷增加，對于數(shù)據(jù)量的需求也會越來越高。尤其是視頻生成和音頻生成大模型的到來，侵權行為將更加廣泛、更加頻繁。

（圖源：豆包AI生成）

解決版權糾紛源頭上需要相關部門制定相應的法律法規(guī)，限制AI公司侵權，保護創(chuàng)作者的權益。2022年12月印發(fā)的《中共中央國務院關于構建數(shù)據(jù)基礎制度更好發(fā)揮數(shù)據(jù)要素作用的意見》，對待AI公司使用互聯(lián)網公開內容的態(tài)度是，淡化所有權、強化使用權，如涉及商業(yè)使用，則需要向創(chuàng)作者支付費用。

2024年11月19日在西安舉辦的中歐數(shù)字環(huán)境下版權保護研討會上，主辦方強調將以《中華人民共和國著作權法實施條例》為修訂契機，完善制度設計，保護著作人的合法權益。

中國版權協(xié)會理事長閻曉宏表示，從技術角度來看，使用有版權的作品要公布版權信息，原則上要獲得作品的授權，但實際上是做不到的。究其原因，企業(yè)訓練AI大模型的數(shù)據(jù)來源過于復雜，媒體的新聞報道、個人發(fā)布的帖子、科研機構的論文、各大公司報告等，很難一一統(tǒng)計和申請授權。

因而還需要全球互聯(lián)網企業(yè)、學術研究機構聯(lián)合起來，打造一個共享數(shù)據(jù)庫，對互聯(lián)網上公開的數(shù)據(jù)進行標注，明確版權歸屬。AI公司需要數(shù)據(jù)時，必須與互聯(lián)網公司和學術研究機構成立的聯(lián)盟合作，商談能夠調用哪些數(shù)據(jù)、需要支付多少成本。互聯(lián)網公司聯(lián)盟在打造共享數(shù)據(jù)庫的同時，也要與創(chuàng)作者溝通合作，取得創(chuàng)作者的授權并支付相應的費用后，才能將內容加入數(shù)據(jù)庫中。

（圖源：豆包AI生成）

這樣一來，掌握大量數(shù)據(jù)的互聯(lián)網公司將承擔起“中間商”的責任，同時與創(chuàng)作者和AI公司對接，即保障了創(chuàng)作者可以獲取收益，本身也能從中抽取一定的利潤。對于騰訊、百度、字節(jié)跳動、FaceBook、X等國內外互聯(lián)網公司而言，還多出了一條信息變現(xiàn)渠道。

AI公司雖要花錢購買數(shù)據(jù)，但抓取數(shù)據(jù)的難度大幅降低，獲取數(shù)據(jù)的渠道也會增多，反而能夠減少一部分成本。OpenAI工作人員吐槽數(shù)據(jù)不夠用，實際是公開且易獲取的數(shù)據(jù)不夠用了。互聯(lián)網宛如一座冰山，只有三分之一浮在水面上，剩下的三分之二則藏在水底。唯有AI公司愿意付出相應的成本，才能夠利用這部分數(shù)據(jù)訓練大模型。

健全的數(shù)據(jù)共享機制，是AI的基石

OpenAI前員工Ilya Sutskever曾表示，數(shù)據(jù)是AI的化石燃料，而這份燃料即將耗盡，但我們只有一個互聯(lián)網，最大化數(shù)據(jù)的時代已經過去了。再加上原定2024年中后期面世的GPT-5遲遲未能完成訓練，不少人已在懷疑，人類社會的數(shù)據(jù)不夠支撐AI行業(yè)進入下個階段。

事實上，人類社會每時每刻都在產生新數(shù)據(jù)，《全國數(shù)據(jù)資源調查報告》顯示，2023年中國數(shù)據(jù)產生總量高達32.85ZB（澤字節(jié)），平均每天產生900億GB數(shù)據(jù)。

（圖源：豆包AI生成）

在網絡滲透進我們生活、辦公、娛樂等各個領域，并覆蓋全球接近70%人口的今天，用于訓練AI大模型的數(shù)據(jù)不夠用是個偽命題。對于AI公司而言，難點在于如何將有效數(shù)據(jù)提取出來。

相關部門提供法律基礎、互聯(lián)網巨頭合力打造數(shù)據(jù)庫，篩選有效數(shù)據(jù)并保障創(chuàng)作者權益，無疑是最省時省力的方案。過去AI企業(yè)不缺數(shù)據(jù)，又想著吃獨食，沒有打造共享數(shù)據(jù)庫的意識。如今形勢發(fā)生變化，易獲取的數(shù)據(jù)不足以支撐AI行業(yè)進入下個階段，唯有所有企業(yè)消除隔閡齊心協(xié)力，方能渡過數(shù)據(jù)量不足的難關。

在元宇宙、區(qū)塊鏈、3D打印、常溫超導、人工智能等諸多被認為可能是第四次工業(yè)革命導火索的產業(yè)中，目前看來最有希望引領人類開啟第四次革命的就是人工智能和與其相關的機器人產業(yè)。

為了推動和規(guī)范行業(yè)發(fā)展，2024年10月21日的德國數(shù)字峰會上，德國施瓦茨數(shù)字公司和德國鐵路公司宣布成立“歐洲數(shù)據(jù)中心”，旨在為AI公司訓練大模型提供數(shù)據(jù)支持。

該會議結束后僅一個月，中歐數(shù)字環(huán)境下版權保護研討會就在西安召開，表明中歐相關部門和企業(yè)有意合作，共同構建AI行業(yè)發(fā)展基石。相信在全球諸多國家、企業(yè)的合作之下，未來數(shù)據(jù)將不再是困擾AI公司的難題。內容創(chuàng)作者在提供數(shù)據(jù)幫助AI公司訓練大模型的同時，也將能夠從中獲利，告別頻繁被侵權卻拿不到任何收益的時代。