- +1
YouTube視頻被OpenAI用來訓練大模型?CEO稱暫無證據,但此舉違規

當地時間4月5日,視頻網站YouTube首席執行官尼爾·莫漢(Neal Mohan)在采訪中表示,他并沒有直接證據能夠證明OpenAI確實使用了YouTube的視頻來完善其文生視頻AI工具Sora,如果真的使用了,那就“明顯違反”了YouTube平臺的使用條款。
莫漢表示:“從創作者的角度來看,當創作者將他們的辛勤勞動上傳到我們的平臺時,他們有一定的期望。其中之一就是符合YouTube的服務條款,不允許下載文字或視頻片段等內容。這(OpenAI使用YouTube視頻)明顯違反了我們的服務條款。”
此外,莫漢還在采訪中提到,谷歌確實使用了YouTube上的一些內容訓練旗下大模型Gemini,但在使用這些內容之前,已經得到了創作者的授權,并遵循了YouTube與創作者之間的合同。
近日,《紐約時報》報道,OpenAI和谷歌涉嫌使用YouTube視頻的轉錄文本來訓練其人工智能模型,這一行為可能侵犯了YouTube創作者的版權。報道稱,OpenAI通過使用其Whisper語音識別工具,轉錄了超過一百萬小時的YouTube視頻內容,并將這些數據用于訓練模型。
OpenAI的Sora是一種文生視頻工具,能夠一次生成整個視頻或擴展生成的視頻以使其更長。和其他生成式AI工具的工作原理一樣,Sora也是從網絡上吸收各種內容,并使用這些數據作為生成新內容的基礎,包括視頻、照片、敘述文本等。
AI的強大功能建立在大量數據訓練的基礎之上,隨著OpenAI、谷歌和其他公司競相開發更強大的AI工具,他們正在尋求越來越多的數據來訓練模型,以生成更好的結果。
但這已經引發了人們對數據來源、用途的質疑。此前,OpenAI因其訓練模型的內容來源而被《紐約時報》以及一些出版社和作者起訴。
今年1月,《紐約時報》在紐約南區法院向OpenAI及其投資人微軟公司提起侵犯版權訴訟,指控二者未經許可使用其數百萬篇文章以訓練人工智能模型,而這些聊天機器人現在與該新聞機構形成競爭,成為可靠的信息來源。
訴訟稱,被告應對與“非法復制和使用《紐約時報》獨特有價值的作品”相關的“數十億美元的法定和實際損害”負責,還要求其銷毀使用《紐約時報》版權材料的所有AI模型和訓練數據。
隨后OpenAI回應稱,《紐約時報》的訴訟毫無根據,但仍然希望與其建立建設性的合作伙伴關系。
此外,據外媒報道,今年3月,OpenAI首席技術官Mira Murati在接受采訪時還曾對Sora的訓練數據來源含糊其辭。
當被追問具體來源是否包含YouTube的視頻時,Murati回復“我實際上并不確定”,并拒絕回答有關Instagram或Facebook視頻是否被納入訓練集的問題。她辯稱,如果這些視頻是公開可用且可以使用的,那么可能會被使用,但她本人對此并不確定。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司