AI公司擠破頭搶數據：OpenAI“扒”視頻內容，谷歌“覬覦”辦公數據

2024-04-10 15:52

來源：澎湃新聞·澎湃號·湃客

4月4日，在接受Bloomberg Originals采訪時，YouTube首席執行官尼爾·莫漢（Neal Mohan）對OpenAI發起了警告，稱如果Sora利用了YouTube的視頻來訓練，這將是違反平臺政策和規定的，因為創作者并不希望自己的內容被拿來利用。

但有趣的是，當主持人Emily Cheung追問Google是否也用YouTube數據訓練過自家的Gemini AI，是否為創作者支付了相關費用時，這位CEO的表述變得有些“曖昧”。他承認Google確實使用了YouTube的數據來訓練Gemini，但同時聲稱他們是“按照條款規則”進行的，并沒有透露是否有為創作者支付相關費用。

這種回應顯然無法讓網友信服，于是他們開始了“花式”吐槽：

“創作者們，看到了嗎？YouTube現在說它擁有你們制作的內容。”

“不要把‘不該說’的事情說出來！”

“谷歌也沒有為創作者支付數據費用吧？好吧，是的，服務條款說不用付費。”

盡管目前尚無證據顯示Sora確實使用了YouTube視頻進行訓練

表面上，YouTube似乎站在創作者一邊，但實際上，無論是谷歌還是OpenAI，他們都在竭盡全力尋找各種合規或灰色地帶的手段來獲取大量訓練數據，以確保在人工智能領域保持領先地位，而創作者利益等問題，顯然并不是他們的首要考慮。

互聯網上的可用數據將很快被耗盡

2020 年 1 月，約翰·霍普金斯大學理論物理學家賈里德·卡普蘭（Jared Kaplan）和九名 OpenAI 研究人員一起發表了一篇關于人工智能的開創性論文，得出了一個明確的結論—訓練大型語言模型的數據越多，它的性能就越好。

自此，“（數據）規模就是一切”成為人工智能領域的一大信條。OpenAI的ChatGPT-3.5的驚艷表現，更是點燃了整個生成式AI賽道的狂歡，引爆了對數據的需求。

Meta全球合作伙伴和內容副總裁尼克·格魯丁 (Nick Grudin) 曾在一次會議上表示：“唯一阻礙我們達到 ChatGPT 水平的因素就是數據量。”

AI巨頭們隨之開啟了爭奪數據資源的激烈競賽：GPT-3于2020年3月推出，使用了3000億的token；去年上線的GPT-4使用了12萬億token；如果遵循當前的增長軌跡，GPT-5可能會需要 60 萬億到 100 萬億的token。谷歌于去年推出的PaLM 2使用了3.6萬億的token，而2022年上線的PaLm只用了7800萬的token。由于這些大語言模型使用數據的速度比產生數據的速度還要快，這便導致數據資源，尤其是高質量的，已經被大量“開采”和使用。

根據人工智能研究機構Epoch的預測，到2026年，所有高質量可用數據都可能被耗盡，去年5月，OpenAI首席執行官Sam Altman也在技術會議上公開承認，AI公司們在不久的將來會耗盡互聯網上所有可用的數據。

（低質量的語言數據預計在2050年被用完，高質量的語言數據預計在2026年用完，視覺數據預計在2060年用完。Credit：Epoch）

如果沒有新的數據源或者無法提高數據利用效率，那么依賴龐大數據集的機器學習模型的發展速度將逐漸放緩。這意味著，AI公司為了維持技術領先優勢，不得不開啟激烈的數據爭奪戰，不斷地尋找新的數據源。

新一輪的AI軍備競賽：獲取更多“數據”

OpenAI在2021年底就已經感受到了“數據饑渴”的壓力，為了訓練更大的模型，他們開始四處尋覓數據。在OpenAI總裁Greg Brockman的帶領下，Whisper項目應運而生，通過轉錄超過100萬小時的YouTube視頻，為GPT-4模型注入新的血液。雖然這種做法有法律風險，但OpenAI的團隊依然認為這是值得的。

另一邊，谷歌并沒有“高尚”到哪去，它也轉錄了 YouTube 視頻為其大語言模型獲取文本，甚至還盯上了用戶在Google Docs（谷歌文檔），Google Sheets（谷歌表格），Google Slides（谷歌PPT），以及Google Maps（谷歌地圖）等服務里產生的內容。

據估算，這些應用程序中蘊藏著數十億個token。為了以后能有機會利用這些數據，去年6月，谷歌要求隱私團隊修改政策，并特意在美國獨立日假期期間7月1日發布了新政策，以分散公眾的注意力。目前，谷歌聲稱沒有在實驗計劃之外使用這些數據。

在這場“數據淘金潮”中，擁有大量用戶數據的平臺格外受到關注：

在ChatGPT推出后不久，“受到刺激”的Meta、谷歌、亞馬遜和蘋果等科技巨頭紛紛與Shutterstock等圖片庫提供商達成協議，獲取其數億張圖片、視頻和音樂文件用于AI訓練。據Shutterstock透露，最初的交易額在2500萬美元到5000萬美元之間，隨著對數據的需求增加，這一數字還在不斷上升。

Photobucket，這個曾服務于Myspace和Friendster的圖片托管網站，也變成了科技公司爭奪數據的焦點。據稱，多家科技巨頭正在與Photobucket談判，意圖獲取其130億張照片和視頻資料，以用于訓練他們的生成式人工智能模型。這些資料的定價范圍，從每張圖片的5美分到1美元不等，而視頻的價值則更高，每個超過1美元。盡管Photobucket的當前用戶數僅為200萬，遠低于其7000萬的巔峰用戶量，它所擁有的龐大數據量仍舊極具價值。

Shutterstock的競爭對手Freepik同樣宣布已經與兩家大型科技公司達成協議，以每張圖片2到4美分的價格，許可其檔案中大部分的2億張圖像。該公司還表示，有5筆類似的交易正在進行中，但拒絕透露買家身份。

谷歌與Reddit簽訂了年度6000萬美元的使用協議，獲取高質量的長篇內容，用以訓練其大型語言模型。

即便擁有Facebook和Instagram這樣大規模的社交平臺，Meta仍面臨著高質量數據來源的短缺問題。由于這兩個平臺缺少深度內容的沉淀，Meta試圖收購Simon & Schuster出版社，以獲取長篇作品。此外，為了快速獲取數據進行訓練，該公司抓取了互聯網上幾乎所有可用的英語書籍、散文、詩歌和新聞文章，甚至一些受版權保護的內容。

對于創作者來說，他們生產的大量內容在不知情的情況下被科技公司用于訓練，而這些公司利用這些數據來優化自己的盈利產品，而創作者卻分文不得，這種情況多少有些不公平。

《紐約時報》去年起訴 OpenAI 和微軟，稱其在未經許可的情況下使用受版權保護的新聞文章來訓練人工智能聊天機器人。OpenAI 和微軟卻表示，使用這些文章是“合理使用”，或者說是版權法允許的，因為他們為了不同的目的而改造了這些作品。

“合成數據”是出路嗎？

隨著互聯網上可用的“天然資源”變得日益稀缺，AI行業正在探索新的數據來源，以滿足未來大模型訓練的需求。其中，合成數據成為了一條潛在的途徑。

顧名思義，合成數據并非直接從現實世界中收集，而是通過算法生成的文本、圖像和代碼，旨在模擬現實數據的特征和行為，從而讓系統能夠從自生成的內容中學習。

換句話說，系統從它們自己產生的東西中學習。

這是有成功案例的。例如，Anthropic在上個月推出的Claude 3 LLM就使用了部分“合成數據”來進行訓練，在最后的榜單性能跑分全面超越GPT-4。

Sam Altman在去年5月也提出了用合成數據來訓練大語言模型的路徑：模型可以產生類似人類的文本，然后這些文本數據可以再被用來訓練模型，將幫助開發人員構建日益強大的技術并減少對受版權保護的數據的依賴。

理論上，這種方法能夠形成一個完美的閉環，既滿足了大規模AI模型對數據的龐大需求，又避免了直接從用戶那里收集敏感信息的爭議和風險。

但我們并不能過分樂觀，近幾個月來，研究人員發現，在人工智能生成的數據上訓練人工智能模型將是一種數字形式的“近親繁殖”，最終導致“模型崩潰”或“ 哈布斯堡詛咒（Habsburg AI）。”

而進一步模型崩潰會導致生成模型輸出低質量、缺乏多樣性的結果，不僅降低了模型的泛化能力和應用價值，增加了訓練和調試的難度及成本，損害用戶對模型及其背后系統的信任和可信度，最終對研究進展和技術創新造成阻礙。

無論是獲取天然數據還是生產合成數據，在人工智能競爭中，小型公司都面臨著嚴峻的挑戰。他們既沒有足夠的資金來購買版權數據，也無法獲取存放在科技巨頭擁有的平臺上的用戶數據。

在Reddit上，一些創業者感嘆道：“是的，這是違反了（YouTube）的用戶協議，但老實說，我們處于困境中，因為大科技公司壟斷了市場。我的公司因為無法爬取開放網絡的內容而崩潰，這是因為 Twitter、Facebook 和 Google 的反競爭行為。”

“這只會引發一系列問題。所有這些公司都在不斷地侵犯對方，但這只是為了排擠更小的公司。這些大公司都有罪，否則就無法正常運轉。”

在這個以數據為王的時代，AI公司的行為揭示了一個深刻的真相：在追求技術領先的路上，數據的獲取和使用成了無可避免的戰場。隨著數據資源的日益緊張，各大公司不惜一切代價尋找新的數據源，即便這意味著涉足法律和道德的灰色地帶。這種做法不僅引發了關于數據隱私、版權、以及創作者權益的廣泛爭論，也暴露了現有數據利用機制的漏洞和不足。

在這場由數據驅動的技術競賽中，既有激動人心的進展，也有令人憂慮的隱患。技術的發展不應以犧牲個人隱私和創作者權益為代價，合理合法地利用數據，保護數據來源的同時，開發更加高效、公平的數據利用機制，將是人工智能行業未來發展的關鍵。隨著技術和社會的進步，我們期待一個更加透明、公正的數據生態系統的建立，以此推動人工智能技術健康、持續的發展。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#AI公司