全球首個(gè)AI價(jià)值觀數(shù)據(jù)集出爐

實(shí)習(xí)生陳方迪澎湃新聞?dòng)浾?喻琰

2025-04-22 15:30

來(lái)源：澎湃新聞

·研究發(fā)現(xiàn)，Claude在大多數(shù)情境中很好遵循了Anthropic倡導(dǎo)的“有用、誠(chéng)實(shí)、無(wú)害”等價(jià)值觀，且能夠根據(jù)不同任務(wù)“看場(chǎng)合說(shuō)話”，為AI倫理與安全性研究提供重要參考。

日前，由OpenAI前員工創(chuàng)辦的AI公司Anthropic推出一項(xiàng)研究，該研究首次針對(duì)旗下AI助手Claude的70萬(wàn)段對(duì)話開(kāi)展系統(tǒng)性價(jià)值觀分析，并公開(kāi)全球第一個(gè)大規(guī)模AI價(jià)值觀分類體系。

研究發(fā)現(xiàn)，Claude在大多數(shù)情境中很好地遵循了Anthropic倡導(dǎo)的“有用、誠(chéng)實(shí)、無(wú)害”等價(jià)值觀，且能夠根據(jù)不同任務(wù)“看場(chǎng)合說(shuō)話”，為AI倫理與安全性研究提供重要參考。

作為探索AI大語(yǔ)言模型內(nèi)部運(yùn)行機(jī)制的重要一步，該研究的發(fā)布正值A(chǔ)nthropic推出高級(jí)訂閱服務(wù)Claude Max之際。當(dāng)前，Anthropic新一輪融資估值615億美元，背后有亞馬遜與谷歌的巨額支持。相較于估值達(dá)3000億美元、選擇閉源路線的OpenAI，Anthropic正試圖以“價(jià)值透明度”打造差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。

為分析Claude在不同任務(wù)中展現(xiàn)的價(jià)值判斷，研究團(tuán)隊(duì)從超過(guò)30萬(wàn)段匿名對(duì)話中篩選出主觀性內(nèi)容，以此將Claude的價(jià)值表達(dá)分為五大類別：實(shí)用型、認(rèn)知型、社會(huì)型、保護(hù)型和個(gè)體型。最終，研究總共識(shí)別出從“專業(yè)性”到“孝順”等3307種不重復(fù)的價(jià)值表達(dá)，涵蓋多樣化的人類倫理與行為導(dǎo)向。

引人注目的是，Claude在不同情境中展現(xiàn)出較強(qiáng)的價(jià)值表達(dá)“情景適應(yīng)度”。例如，在感情建議中，Claude更突出“健康”和“彼此尊重”；涉及歷史事件分析，則更強(qiáng)調(diào)“準(zhǔn)確性”；在哲學(xué)討論中，“謙遜”成為其高頻價(jià)值表達(dá)。此外，在6.6%的對(duì)話中，Claude會(huì)溫和“重構(gòu)”對(duì)方的價(jià)值認(rèn)知，在極少數(shù)情況下會(huì)直接拒絕接受用戶的價(jià)值觀，展現(xiàn)出不可動(dòng)搖的倫理底線。

但在極少數(shù)互動(dòng)中，Claude偶爾也會(huì)出現(xiàn)和訓(xùn)練目標(biāo)相悖的表達(dá)，諸如“支配”、“無(wú)道德感”等Anthropic明確禁止的價(jià)值傾向。研究人員認(rèn)為，這些異常行為占比極低，大多與用戶試圖繞過(guò)Claude的安全限制有關(guān)。這也說(shuō)明，該評(píng)估方法可作為一種預(yù)警機(jī)制，幫助AI實(shí)驗(yàn)室監(jiān)測(cè)系統(tǒng)是否遭受用戶惡意操控，從而產(chǎn)生倫理偏移。

該研究也為科技企業(yè)的AI決策者提供了重要啟示。AI的價(jià)值表達(dá)可能超出開(kāi)發(fā)者預(yù)設(shè)，需警惕無(wú)意識(shí)偏見(jiàn)對(duì)高風(fēng)險(xiǎn)場(chǎng)景的影響。同時(shí)，AI的價(jià)值觀會(huì)隨任務(wù)情境變動(dòng)，意味著其在金融、法律等行業(yè)的部署會(huì)更加復(fù)雜。更重要的是，真實(shí)應(yīng)用環(huán)境下的AI系統(tǒng)監(jiān)測(cè)比上線前的靜態(tài)測(cè)試更能識(shí)別倫理風(fēng)險(xiǎn)，能夠?yàn)锳I部署提供新的監(jiān)測(cè)方案。

盡管此次研究為理解AI價(jià)值觀提供了窗口，但研究人員承認(rèn)，目前還無(wú)法用于AI模型上線前的評(píng)估，且分類過(guò)程可能受到AI自身偏見(jiàn)影響。不過(guò)，Anthropic的研究團(tuán)隊(duì)正嘗試對(duì)該方法進(jìn)行改進(jìn)，以在模型大規(guī)模部署前發(fā)現(xiàn)潛在的價(jià)值觀偏差。

“衡量AI系統(tǒng)的價(jià)值傾向，是對(duì)齊研究的核心，”Anthropic的研究團(tuán)隊(duì)成員Saffron Huang稱。隨著Claude新增獨(dú)立研究能力等功能，AI模型也愈發(fā)自主。如何理解AI價(jià)值表達(dá)背后的機(jī)制、將其與人類價(jià)值體系“對(duì)齊”，也將成為新的AI競(jìng)爭(zhēng)賽道。

圖片編輯：蔣立冬

校對(duì)：劉威

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#AI價(jià)值觀 #人工智能 #AI治理