- +1
全球首個(gè)AI價(jià)值觀數(shù)據(jù)集出爐
·研究發(fā)現(xiàn),Claude在大多數(shù)情境中很好遵循了Anthropic倡導(dǎo)的“有用、誠(chéng)實(shí)、無(wú)害”等價(jià)值觀,且能夠根據(jù)不同任務(wù)“看場(chǎng)合說(shuō)話”,為AI倫理與安全性研究提供重要參考。
日前,由OpenAI前員工創(chuàng)辦的AI公司Anthropic推出一項(xiàng)研究,該研究首次針對(duì)旗下AI助手Claude的70萬(wàn)段對(duì)話開(kāi)展系統(tǒng)性價(jià)值觀分析,并公開(kāi)全球第一個(gè)大規(guī)模AI價(jià)值觀分類體系。
研究發(fā)現(xiàn),Claude在大多數(shù)情境中很好地遵循了Anthropic倡導(dǎo)的“有用、誠(chéng)實(shí)、無(wú)害”等價(jià)值觀,且能夠根據(jù)不同任務(wù)“看場(chǎng)合說(shuō)話”,為AI倫理與安全性研究提供重要參考。
作為探索AI大語(yǔ)言模型內(nèi)部運(yùn)行機(jī)制的重要一步,該研究的發(fā)布正值A(chǔ)nthropic推出高級(jí)訂閱服務(wù)Claude Max之際。當(dāng)前,Anthropic新一輪融資估值615億美元,背后有亞馬遜與谷歌的巨額支持。相較于估值達(dá)3000億美元、選擇閉源路線的OpenAI,Anthropic正試圖以“價(jià)值透明度”打造差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。
為分析Claude在不同任務(wù)中展現(xiàn)的價(jià)值判斷,研究團(tuán)隊(duì)從超過(guò)30萬(wàn)段匿名對(duì)話中篩選出主觀性內(nèi)容,以此將Claude的價(jià)值表達(dá)分為五大類別:實(shí)用型、認(rèn)知型、社會(huì)型、保護(hù)型和個(gè)體型。最終,研究總共識(shí)別出從“專業(yè)性”到“孝順”等3307種不重復(fù)的價(jià)值表達(dá),涵蓋多樣化的人類倫理與行為導(dǎo)向。
引人注目的是,Claude在不同情境中展現(xiàn)出較強(qiáng)的價(jià)值表達(dá)“情景適應(yīng)度”。例如,在感情建議中,Claude更突出“健康”和“彼此尊重”;涉及歷史事件分析,則更強(qiáng)調(diào)“準(zhǔn)確性”;在哲學(xué)討論中,“謙遜”成為其高頻價(jià)值表達(dá)。此外,在6.6%的對(duì)話中,Claude會(huì)溫和“重構(gòu)”對(duì)方的價(jià)值認(rèn)知,在極少數(shù)情況下會(huì)直接拒絕接受用戶的價(jià)值觀,展現(xiàn)出不可動(dòng)搖的倫理底線。
但在極少數(shù)互動(dòng)中,Claude偶爾也會(huì)出現(xiàn)和訓(xùn)練目標(biāo)相悖的表達(dá),諸如“支配”、“無(wú)道德感”等Anthropic明確禁止的價(jià)值傾向。研究人員認(rèn)為,這些異常行為占比極低,大多與用戶試圖繞過(guò)Claude的安全限制有關(guān)。這也說(shuō)明,該評(píng)估方法可作為一種預(yù)警機(jī)制,幫助AI實(shí)驗(yàn)室監(jiān)測(cè)系統(tǒng)是否遭受用戶惡意操控,從而產(chǎn)生倫理偏移。
該研究也為科技企業(yè)的AI決策者提供了重要啟示。AI的價(jià)值表達(dá)可能超出開(kāi)發(fā)者預(yù)設(shè),需警惕無(wú)意識(shí)偏見(jiàn)對(duì)高風(fēng)險(xiǎn)場(chǎng)景的影響。同時(shí),AI的價(jià)值觀會(huì)隨任務(wù)情境變動(dòng),意味著其在金融、法律等行業(yè)的部署會(huì)更加復(fù)雜。更重要的是,真實(shí)應(yīng)用環(huán)境下的AI系統(tǒng)監(jiān)測(cè)比上線前的靜態(tài)測(cè)試更能識(shí)別倫理風(fēng)險(xiǎn),能夠?yàn)锳I部署提供新的監(jiān)測(cè)方案。
盡管此次研究為理解AI價(jià)值觀提供了窗口,但研究人員承認(rèn),目前還無(wú)法用于AI模型上線前的評(píng)估,且分類過(guò)程可能受到AI自身偏見(jiàn)影響。不過(guò),Anthropic的研究團(tuán)隊(duì)正嘗試對(duì)該方法進(jìn)行改進(jìn),以在模型大規(guī)模部署前發(fā)現(xiàn)潛在的價(jià)值觀偏差。
“衡量AI系統(tǒng)的價(jià)值傾向,是對(duì)齊研究的核心,”Anthropic的研究團(tuán)隊(duì)成員Saffron Huang稱。隨著Claude新增獨(dú)立研究能力等功能,AI模型也愈發(fā)自主。如何理解AI價(jià)值表達(dá)背后的機(jī)制、將其與人類價(jià)值體系“對(duì)齊”,也將成為新的AI競(jìng)爭(zhēng)賽道。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司