- +1
學(xué)術(shù)論文正被高價(jià)出售給大模型訓(xùn)練,作者卻零收入
·越來(lái)越多的學(xué)術(shù)出版商正將研究論文賣給科技公司用以訓(xùn)練人工智能(AI)模型,而作者收入為零。
大語(yǔ)言模型(LLM)因訓(xùn)練數(shù)據(jù)問(wèn)題再次引發(fā)爭(zhēng)議。日前,國(guó)際著名期刊《自然》(《Nature》)雜志編輯伊麗莎白·吉普尼(Elizabeth Gibney)發(fā)布一篇題為《你的論文被用來(lái)訓(xùn)練人工智能模型了嗎?幾乎可以肯定》一文。文中作者表示,當(dāng)前有越來(lái)越多的學(xué)術(shù)出版商正在將研究論文授權(quán)給科技公司,用于訓(xùn)練人工智能(AI)模型。有學(xué)術(shù)出版商借此賺取了2300萬(wàn)美元,而作者卻收入為零。這些交易在很多情況下并未征求作者的意見(jiàn),引發(fā)了部分研究人員的強(qiáng)烈不滿。
“如果你的論文還沒(méi)有被用作AI訓(xùn)練數(shù)據(jù),很可能很快就會(huì)成為訓(xùn)練的一部分?!币聋惿住ぜ漳嵩谖闹兄赋觯?dāng)前學(xué)術(shù)論文作者在面對(duì)出版商出售其版權(quán)作品時(shí)幾乎無(wú)權(quán)干涉。對(duì)于公開(kāi)發(fā)表的文章,也沒(méi)有現(xiàn)成機(jī)制來(lái)確認(rèn)這些內(nèi)容是否被用作AI訓(xùn)練數(shù)據(jù)。在大語(yǔ)言模型使用中,如何建立更加公平的機(jī)制保護(hù)創(chuàng)作者的權(quán)益,值得學(xué)術(shù)界和版權(quán)界廣泛討論。
大語(yǔ)言模型(LLM)通常依賴從互聯(lián)網(wǎng)上抓取的大量數(shù)據(jù)進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括數(shù)十億片段的語(yǔ)言信息(稱為“標(biāo)記”),通過(guò)分析這些標(biāo)記之間的模式,模型得以生成流暢的文本。學(xué)術(shù)論文因其內(nèi)容豐富、信息密度高,相比大量普通數(shù)據(jù)更有價(jià)值,是AI訓(xùn)練中的重要數(shù)據(jù)來(lái)源。數(shù)據(jù)分析師斯特凡·巴克(Stefan Baack)來(lái)自全球非營(yíng)利組織Mozilla基金會(huì),他分析指出,科學(xué)論文對(duì)大語(yǔ)言模型的訓(xùn)練有很大幫助,尤其是在科學(xué)主題上的推理能力方面。正是由于數(shù)據(jù)的高價(jià)值,各大科技公司紛紛斥巨資購(gòu)買數(shù)據(jù)集。
該文指出,今年《金融時(shí)報(bào)》與OpenAI達(dá)成協(xié)議,將其內(nèi)容授權(quán)給后者;被稱為“美國(guó)貼吧”的Reddit也與谷歌簽署了類似的交易。這些交易體現(xiàn)出版商試圖通過(guò)合法授權(quán)避免自己的內(nèi)容被AI模型無(wú)償抓取。
文章透露,上月英國(guó)的學(xué)術(shù)出版商Taylor & Francis與微軟簽署了一項(xiàng)價(jià)值1000萬(wàn)美元的協(xié)議,允許微軟訪問(wèn)其數(shù)據(jù)以改進(jìn)AI系統(tǒng)。而在6月,美國(guó)出版商Wiley通過(guò)向某家公司提供內(nèi)容用于AI訓(xùn)練,收入高達(dá)2300萬(wàn)美元。而這些巨額收入與論文作者沒(méi)有任何關(guān)系。
當(dāng)前,研究人員正嘗試用技術(shù)手段幫助作者識(shí)別其作品是否被用于AI模型訓(xùn)練。西雅圖華盛頓大學(xué)的人工智能研究員露西·盧·王( Lucy Lu Wang) 稱,如果一篇論文已經(jīng)被用作模型的訓(xùn)練數(shù)據(jù),在模型訓(xùn)練完成后就無(wú)法將這篇論文移除。
不過(guò),即便能證明論文被用于AI訓(xùn)練,但在法律層面仍然面臨爭(zhēng)議。文中指出,出版商認(rèn)為,使用未經(jīng)授權(quán)的受版權(quán)保護(hù)內(nèi)容進(jìn)行訓(xùn)練是侵權(quán)行為;而另一種法律觀點(diǎn)則認(rèn)為,大語(yǔ)言模型并未直接復(fù)制內(nèi)容,而是通過(guò)學(xué)習(xí)來(lái)生成新文本。
值得注意的是,并非所有研究者都反對(duì)將他們的作品用于AI訓(xùn)練。斯特凡·巴克表示,他很樂(lè)于看到自己的研究成果被用來(lái)提高AI的準(zhǔn)確性,并且不介意AI“模仿”自己的寫作風(fēng)格。然而,他也承認(rèn),并非所有人都能輕松應(yīng)對(duì)這一問(wèn)題,尤其是那些面臨AI競(jìng)爭(zhēng)壓力的職業(yè),如藝術(shù)家和作家。
事實(shí)上,關(guān)于使用受版權(quán)保護(hù)的知識(shí)作品來(lái)訓(xùn)練 AI 模型的訴訟案件此前已引起過(guò)廣泛關(guān)注。
8月14日,《華盛頓郵報(bào)》報(bào)道,美國(guó)多名視覺(jué)藝術(shù)家和插畫家對(duì)AI圖像生成工具的集體訴訟案取得突破進(jìn)展。他們?cè)缚豈idjourney和Stability AI等初創(chuàng)公司在未經(jīng)同意的情況下使用作品來(lái)訓(xùn)練AI模型。這起案件在本周取得了關(guān)鍵性進(jìn)展。美國(guó)地區(qū)法官威廉·奧里克允許該案的關(guān)鍵部分繼續(xù)推進(jìn),這意味著法庭已經(jīng)決定某些指控有足夠的法律證據(jù),可以繼續(xù)審理下去,接下來(lái)隨著法律審理的過(guò)程,可能會(huì)披露這些公司在開(kāi)發(fā)AI工具時(shí)的內(nèi)部交流情況。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司