- +1
人工智能價值對齊的哲學反思|有限主義視域下的人工智能價值對齊
現有人工智能(artificial intelligence,簡稱AI)價值對齊方案試圖借助自然科學的經驗證據與實證方法厘清人類道德的自然主義基礎,并通過技術手段將其應用到AI對人類價值觀的學習之中,忽視了道德的自然主義解釋的根本性缺陷,引發了AI價值對齊難題。有限主義認為,現有AI價值對齊方案主張使AI具備類人道德,在本質上遵循AI發展的自由主義進路。這過于樂觀化、理想化。在現實中,時空有限性、類人有限性與算法有限性等難題導致AI價值對齊的功能有限性。同時,AI價值對齊的功能有限性又伴隨著各類技術風險與社會風險,即AI失控風險、人類機器化風險、無人擔責風險與AI濫用風險。對此,應堅持有限主義的AI價值對齊方案,反對通用AI價值對齊的路線,堅持AI價值對齊的去道德化,制度化防止AI道德責任對齊,以及控制AI價值對齊的應用范圍。

劉永謀,中國人民大學哲學院教授、博士研究生導師
隨著AI的普遍化與強大化,人類正處于“魔法師學徒”的境地,對齊問題(the alignment problem)成為最緊迫的問題之一,即“如何確保這些模型捕捉到我們的規范和價值觀,理解我們的意思或意圖,最重要的是,以我們想要的方式行事”。當AI倫理風險不斷涌現,價值對齊問題已然成為各大AI企業競相研究、踐行的核心策略。2023年7月,OpenAI宣布成立“超級對齊”(superalignment)團隊,計劃花費4年時間、投入20%算力,全力解決超級智能的價值對齊問題。此外,谷歌、微軟、OpenAI和Anthropic共同創建了前沿模型論壇,旨在通過與政策制定者、學術界的合作,推動AI模型安全、負責任的開發。不可否認,AI價值對齊能夠大幅糾正偏見、促進公平,已被視為解決AI發展負面后果的關鍵舉措。
但是,AI價值對齊亦存在問題。從根本上來看,現有的各類AI價值對齊方案遵循AI發展的自由主義進路,堅持類人AI理念,強調技術至上,主張資本的無序擴展與有效加速主義(effective accelerationism, e/acc)。具體來說,AI價值對齊追求類人道德,對技術發展極度樂觀,試圖借助科學知識與技術手段,使AI習得人類價值觀。人類道德是不完美的,類人道德并非圣人道德,并不一定有益于人類。因此,雖然AI價值對齊將有益AI視為最終目標,但是在實踐路徑上卻發生偏移,逐漸趨向自由主義進路,不可避免地伴隨著AI失控、人類機器化、無人擔責與AI濫用等風險。
跳出自由主義框架,以有限主義視域審視AI價值對齊是必要的、有價值的。尼克·波斯特洛姆(Nick Bostrom)在分析智能大爆發的動力學、超級智能的形式和能量的基礎之上,轉向AI控制問題的研究。他區分了確保AI可控的能力控制方法與動機選擇方法,認為能力控制方法最多只是暫時的、輔助的手段,人類應更多地掌握AI動機選擇機制。在此基礎之上,波斯特洛姆詳細分析了AI獲取人類價值觀的多種方法,如詳細表達、進化選擇、強化學習、價值觀累積、動機性支架、價值觀學習、仿真調節、體制設計,并對可行性與效果進行評估。此外,斯圖爾特·羅素(Stuart Russell)同樣強調,要保持對AI的絕對控制權,確保AI永遠對人類有益。他提出了人機之間的一種新關系,即:當致力于使AI實現人類目標時,應明確人類的目標是不確定的,如此才能確保AI服從于人類,在行動前請求許可、接受糾正、允許被關閉。無論是尼克·波斯特洛姆,還是斯圖爾特·羅素,均遵循AI發展的有限主義進路,強調AI的可控性與有益性。正如科技謙遜主義所認為的,“人類發展科技的最終目標毫無疑問是為了人類福祉,即使追求真理的沖動,最后也是要落實到造福社會上的”。與自由主義進路相對,有限主義進路關注對AI的控制而非無限發展,“重要的是努力控制,而不是完成控制”。因此,在有限主義視域下審視AI價值對齊的基本預設、功能范圍與具體方案,才能確保AI安全、有益、實用,避免陷入“AI必須擁有像人類一樣的價值觀”的技術、倫理等跨學科難題中。

一、AI價值對齊的自然主義預設
在有限主義看來,現有的AI價值對齊方案遵循自由主義進路,試圖通過無限發展技術使AI具備類人道德,因此,該方案不可避免地以自然主義道德觀為基礎和預設。其原因在于,強調技術至上的自由主義進路傾向于選擇一種普遍的、絕對的道德觀,以便被統計、量化與編碼至AI系統。一直以來,人類普遍將自由意志、意識等視為道德的核心要素,但此種對道德本質的形而上學思辨難以被證實,無法通過技術手段將其應用至AI價值對齊方案中。相較而言,近來興起的生物倫理學、神經倫理學等探尋人類道德的自然主義基礎,從自然科學的角度解釋人類道德的起源與本質,為AI價值對齊提供了可操作的、可實現的技術路徑。但是,通過有限主義視域的審視,可以發現,道德的自然主義解釋存在根本性缺陷,它忽視了道德的文化維度,消解了人類道德的復雜性與多樣性。
(一)人類道德的自然主義理論基礎
在認知神經科學領域,人類道德行為被認為與大腦中的特定區域相關。通過利用“腦電圖(EEG)、事件相關電位(ERP)等電信號方法以及正電子發射斷層技術(PET)、功能磁共振成像(fMRI)等方法”,可發現大腦中有兩個與道德相關的系統:情感系統與認知系統。在情感系統中,杏仁核在面臨道德情境時會被激活,產生憤怒和恐懼等情緒反應,進而影響道德判斷;島葉與同情、內疚等道德情感相關,有助于推動我們做出道德行為;腹內側前額葉皮層負責整合來自杏仁核與島葉的情感信息,并結合認知信息,做出綜合的道德決策。在認知系統中,背外側前額葉皮層幫助人類在道德判斷中應用邏輯與規則權衡利弊;下頂葉皮層有助于我們在道德決策前識別他人意圖、行為與情感狀態;前扣帶皮層在識別道德沖突、糾正錯誤行為方面有著重要作用。此外,大腦中的多巴胺作為情感與認知系統間的橋梁,能夠確保人類在面臨復雜的道德情境時,綜合情感與理性做出道德判斷。多巴胺作為一種神經遞質,是大腦獎勵機制中的驅動力。當預測或感知到某一道德行為會帶來獎勵時,大腦的某些區域會釋放多巴胺并產生愉悅感,使主體對獎勵產生依賴與渴望,進而強化、學習、內化某些道德判斷與行為。當某人做出符合社會道德規范的行為(如看到他人受苦時給予幫助)并得到認可與積極反饋,多巴胺的釋放便會加強該行為的重復。在道德困境中,多巴胺通過調節獎勵預期做出最終抉擇。
在生物進化學看來,道德主要是一種合作形式與利他行為,二者有利于人類生存與繁衍,因此人類道德能夠在自然選擇中被保留。合作即個體同他人一起從事互利活動的行為,“同情是純粹的合作,公平是某種競爭的合作化”。當合作需個體付出凈成本,為他人帶來凈利益,便展現為利他主義。據考古學可知,大約4萬年前,智人的一支突然出現戴蒙德所謂的“跳躍式演化”,擁有了道德感,開始照顧老弱病殘,成為現代智人有道德的祖先克羅馬農人。在很大程度上,此道德演化源于人類早期環境的影響。晚更新世祖先生活在資源分布不均、大型捕食者眾多、氣候多變的非洲大草原,合作狩獵大大提升了效率與安全性,集體養育后代減少了時間與資源成本,共同防御提升了對抗外部威脅的能力,真實信息共享有助于群體做出更優的遷移、防御、捕食等決策。此后,隨著時間的推移,人類互惠互利合作出現在勞動分工、生產系統、戰爭等領域,為人類帶來了低成本高收益以及更強的群體適應性。但是,此種道德的自然主義解釋無法說明利他主義的存在,根據理查德·道金斯(Richard Dawkins)的理論,成功基因的一個突出特性是無情的自私性,這將導致個體行為的自私性,只有在特殊情況下個體才會展現出一種有限的利他主義,普遍的愛和利益在進化論中屬于毫無意義的概念。對此,塞繆爾·鮑爾斯(Samuel Bowles)與赫伯特·金迪斯(Herbert Gintis)認為,支持合作的利他主義在進化過程中可勝過全然非道德的自利的原因有三:第一,人類群體設置了回避、排斥、懲罰、均整化實踐等方法保護利他成員免于遭受自利者的利益剝奪;第二,人類長期且復雜的社會化系統引導個體內化能夠導向合作行為的規范,如聲譽選擇;第三,擁有大量合作成員的群體,能夠在與其他群體的競爭中取勝,獲得繁殖優勢,并通過文化傳播擴散合作行為。此外,模仿也是關鍵因素,當個體注意到合作者獲得了高利益,便會模仿其合作行為;當父母經常做出利他行為,幼年個體便會不自覺模仿。由此,合作與利他行為便會迅速在群體中擴散與普及。總之,無論是通過暴力馴化還是自我馴化,隨著對非道德個體的壓制和消滅,人類的基因庫與行為方式逐漸改變,經由一種特殊的自然選擇過程留下了有道德感的后代。
(二)基于自然主義道德觀的AI價值對齊
在現有技術路徑中,AI價值對齊方案可分為兩大類:插入式對齊與微調式對齊。插入式對齊(plug-in alignment)包括參數高效的調整(parameter-efficient tuning)、輸出矯正(output rectification)、上下文學習(in content learning);微調式對齊(fine-tuning based alignment)包括全監督微調 (supervised fine-tuning, SFT)和基于人類反饋的強化學習微調(reinforcement learning from human feedback, RLHF)。此外,Anthropic公司提出的“憲法人工智能”(constitutional AI)作為一種微調方法,主張以訓練好的“憲法AI”模型評估主模型的輸出是否符合“憲法”規則,力圖基于模型訓練而非人類反饋實現高效的、規模化的AI價值對齊。
有限主義認為,在上述方案中,部分AI價值對齊技術以認知神經科學為基礎,探尋AI學習人類道德的可能性。多模態情感分析與人類大腦的情感系統相類似,AI可通過表情、語調、語義等多模態輸入識別情感狀態,從而做出情感驅動的道德判斷。例如,AI社交軟件利用多模態情感分析技術,通過分析文字、圖片、音頻、視頻中的情感傾向,可識別與處理某些不道德內容,如仇恨言論、偏見歧視等。知識圖譜與倫理規則引擎可表示、執行、推理復雜的倫理關系與規則,類似于人類大腦認知系統中的規則與邏輯應用,AI可使用知識圖譜與倫理規則引擎進行復雜的道德推理與決策。例如,自動駕駛系統可利用知識圖譜整合道路環境、交通規則、事故數據,并結合倫理規則引擎,根據內置的道德規則,在面臨“電車難題”等情況時權衡各項因素,做出最優決策。此外,強化學習模仿大腦多巴胺系統的獎勵信號與調節機制,針對AI的道德輸出,人類的反饋被作為一種獎勵信號,能夠幫助AI區分道德行為與不道德行為。通過計算人類實際反饋與AI預期反饋之間的差異,AI不斷調整其行為策略以符合道德規范。因此,人類準確及時的正面反饋能夠強化AI的道德行為,負面反饋有助于糾正AI不道德行為。例如,當人類對ChatGPT的某些回答給予負面反饋,模型便會調整其生成策略,避免類似回答再次出現。
此外,在有限主義看來,AI價值對齊運用的某些算法與學習方式嘗試借鑒生物進化學中的合作與利他行為,幫助AI在與人類的互動中更好地理解、辨別與學習道德行為。在多智能體強化學習中,智能體通過合作博弈模型學習如何在多個利益相關者之間實現公平與協作。例如,AI醫療系統中的合作博弈模型可在醫療資源有限的情況下實現公平分配,并在面對緊急情況時綜合病人傷情、治療效果等情況進行救治優先級決策,做出較為公正的道德判斷。進化算法可通過初始化、評估和選擇、交叉和變異、替換等過程訓練AI進行道德決策,以逐漸逼近最優解。首先,確保一定數量的AI模型的參數是隨機初始化的,其中每個模型都被設計用來評估道德情境并做出決策;其次,通過道德任務評估每個AI模型的道德表現并進行評分,選取表現最好的模型進入下一代;再次,通過交叉操作,將兩個優秀模型的參數進行結合和重組,并隨機修改新AI模型的部分參數,引入新的遺傳多樣性;最后,用新模型替換初始表現最差的AI模型。這一過程迭代進行,AI模型不斷優化,直到AI道德決策不斷逼近人類道德判斷。例如,護理機器人運用進化算法,可在面臨保護客戶隱私與提供必要幫助的道德抉擇時,做出合理并能滿足用戶需求的道德決策。此外,模仿學習方法(如逆強化學習與行為克隆的運用)使AI能夠在人機交互中模仿人類道德行為。例如,AI助理法官通過逆強化學習,學習人類法官在判決過程中的決策邏輯與道德考量,避免受原生數據影響而產生偏見行為。
(三)自然主義道德觀存在明顯缺陷
通過分析道德的自然主義基礎及其在AI價值對齊技術方案中的應用,不難發現,AI價值對齊的自然主義預設體現在三個層面:第一,主張道德現象可還原為自然事實,且事實間存在因果關系;第二,認為道德相關項可通過統計與數據方法進行明確表征;第三,認可存在普遍化的、絕對化的道德。
以有限主義視角對AI價值對齊的自然主義預設進行批判性審視,可以發現,自然主義道德解釋存在自然主義謬誤、理論不確定性與認識片面性的根本缺陷,極易引發AI價值對齊難題。首先,自然主義謬誤即一種從“是”到“應當”的邏輯推演錯誤。現有AI價值對齊以自然主義為預設,試圖從生物學、神經科學事實中推導出道德價值,忽視了描述性事實與規范性判斷之間的根本差異。當某些神經生理結構被視為人類做出道德決策與行為的根源時,要求不道德者為自身行為負責似乎缺乏合理性。其次,理論不確定性即道德的某些自然主義解釋難以被完全證實。例如,生物進化理論認為,合作演化過程包括親屬選擇、族群選擇、互利共生和互惠、利他主義,這一關于合作行為的自然主義解釋,存在從基因決定論到社會決定論、從利己合作到利他合作的斷裂。其實,“就目前的實驗條件而言,尚未存在任何一種道德屬性與自然屬性之間的因果性關系能夠在科學上獲得充分認可”。即便關于人類道德的某些生物學與神經科學解釋暫時難以被證偽,也應避免從碎片化的、特殊性的某類科學知識中推導出一般性的道德規范。最后,認識片面性即自然主義道德解釋忽視了道德的文化維度。“人類道德不是一個單一龐大的東西,而是個混雜物,是在不同生態壓力下,在人類進化的數百萬年間的不同時期,由來源于各種不同的東西拼湊而成”。認知神經科學與生物進化等領域的道德理論以某些經驗證據與實證數據為基礎,試圖確立某種普遍的道德原則,但是,道德兼具規范性與描述性的雙重本質,其中,規范性作為道德的核心特征,難以被還原為某些實證知識。不可否認,道德規范也是多樣的、相對的,在不同的社會環境中受人類后天文化教育、文化傳播的影響而不斷發展。正如道金斯提出的模因(memes)概念,其作為文化的基本單位,與自然科學中的基因(gene)概念相對,可通過社會傳播、代際傳播等方式塑造不同的道德規范。
總之,有限主義認為,對道德的自然主義解釋是有限度的,道德雖然在自然方面持續演化,但同時在文化方面也不斷建構,因此應避免走到決定論的地步。人類的道德行為是“自然—先天”與“文化—后天”兩方面綜合作用的結果,既有自然屬性,也有社會屬性。因此,較為合理的解釋可被總結為“道德的自然空間說”。即:人類的生物學特征給我們的道德觀念以某種自然主義基礎或框架,使之不可能超出某種可能性空間,但這種限制并不導致唯一性的道德觀念,而是存在細節上的多元化道德選擇。

二、AI價值對齊的功能有限性
不可否認,上述基于自然主義道德觀的AI價值對齊方案對智能社會的健康發展產生了一定程度的正面影響。無論是將黑人識別成大猩猩的谷歌圖像識別軟件,還是為男性相關詞匯打正分而為女性相關詞匯打負分的亞馬遜在線簡歷篩選工具,抑或是對黑人存在偏見的未來犯罪預測軟件,經過技術上的AI價值對齊,在某種程度上能夠逐漸與人類現有的規范與價值觀保持一致,有效地促進了社會公平與大眾福祉。
但是,必須認識到,AI價值對齊在實踐路徑上遵循自由主義進路,其自然主義道德觀的基本預設存在各種缺陷,因此導致AI價值對齊難題。有限主義認為,AI價值對齊以有益AI為出發點,大方向值得肯定,但是,具體的實踐路徑存在功能上的有限性,伴隨著各類潛在風險,不可盲目將AI價值對齊視為應對AI風險的“靈丹妙藥”。
(一)功能有限性源于AI價值對齊難題
在有限主義看來,自由主義進路下的AI價值對齊難題包含三個方面,即基于數據依賴性的AI價值對齊時空有限性、基于模仿差異性的AI價值對齊類人有限性,以及基于算法局限性的AI價值對齊算法有限性。這是引發AI價值對齊功能有限性的根本原因。
首先,AI價值對齊時空有限性強調人類的道德價值觀隨時間、情境而變化。AI價值對齊的功能效果依賴于AI系統的輸入數據,人類的道德價值觀是數據的主要來源。“道德的自然空間說”認為,道德的自然主義解釋的確在某種程度上提供了一些普遍的價值觀,如公平、利他、不傷害等,但是這并不對道德的發展起決定性作用。受不同地區文化背景的熏陶與影響,人們的道德規范與價值觀存在多元化、特殊化傾向,并且不同時期的主流價值觀存在明顯差異。例如,工業時代的機器人設計與發展更多考慮經濟增長、生產效率,而智能時代的AI逐漸開始兼顧倫理,致力于AI治理與創新齊頭并進,引導AI向善。中西文化背景的差異也塑造了不同的價值取向,中國強調集體利益與社會和諧,而西方強調個體自由與個人權利。生活在不同時期、不同地區中不同性別、不同階級的人,對同一現象存在不同的價值判斷,在人類價值觀無法對齊的情況下,AI對齊人類價值觀似乎只是無法實踐的理想口號。因此,AI價值對齊時空有限性將導致AI在面臨未來價值判斷與現實道德沖突時顯露出功能的有限性:一方面,投喂給AI的道德案例來源于過去與現在,因此,在面對未來的全新道德情境時,無法保證AI一定能做出符合未來社會價值規范的道德判斷,畢竟我們難以預知未來的道德圈究竟可擴展到何種程度,難以想象AI是否會成為獨立的道德主體;另一方面,即便AI能夠從幾乎所有的人類道德案例中學習,充分了解不同地區的價值差異,也無法在案例中將捕捉到的人類價值規范恰當、高效地應用于突發道德沖突中。例如,當某些AI社交軟件在全球平臺上運行時,難以平衡不同文化之間相互沖突的價值觀,因此在審核和過濾不當內容時容易出現效果不佳的情況。此外,在機器學習中存在現實主義與可能主義的爭論,當強化學習算法對各種可選行為的未來收益預期進行學習與評估時,面臨著應以“實際將獲得的預期收益”還是“可能獲得的最好預期收益”為標準的抉擇困境。
其次,AI價值對齊類人有限性指當試圖使AI在大量案例中模仿人類道德時,存在不完美模仿與過度模仿的差異性。不完美模仿即人類道德存在應然與實然的偏差,在現實中達不到理想中的至善狀態。傳統道德觀認為,人類道德以意識與情感為基礎,但是,人類的認知與情感受家庭培養、學校教育與社會教化的影響,存在著個體差異性,現實中人類的道德水平參差不齊,人類集體無法提供完全純粹的道德行為案例。當訓練數據中包含了人類的歧視、偏見等不道德行為時,AI系統便會對人類的不完美道德進行模仿并不斷強化,甚至有些用戶會刻意引導AI生成與傳播不良內容,如微軟的Tay聊天機器人在與Twitter用戶的互動中,迅速學習與模仿了某些來自用戶的不當言論,如種族主義與性別歧視等言論。此外,AI對人類的模仿雖然能夠大幅提升價值對齊效率、無須承擔無數次的試錯風險、有助于AI學習到難以用語言描述的人類行為,但是AI在模仿時極易出現過度模仿行為。當人類在完成某件特定任務時,為了自身的舒適度,可能會在常規步驟中加入某些不必要但卻適合自身的行為,若AI進行直接模仿,便會額外消耗資源與算力,產生不必要的浪費。并且,AI在觀察人類行為的基礎上,需要進行推斷,得出如何行動的結論。顯然,此類推斷很容易出錯,因為AI的推斷以數據和邏輯為基礎,而人類行為則摻雜非理性尤其是情感因素。
最后,AI價值對齊算法有限性是指AI價值對齊方法存在不可解釋性、泛化能力差以及獎勵攻擊的局限性。深度神經網絡的決策過程十分復雜,人類難以針對AI的錯誤輸出向前追溯,存在算法黑箱難題。因此,算法做出的道德決策很難事先預測(如何處理一個新的輸入)或事后解釋(如何做出一個特定的決定),不確定性抑制了算法在設計和操作過程中對倫理挑戰的識別和糾正。泛化能力差具體表現為:當AI模型過度擬合訓練數據,過于關注數據中的細節與噪聲,便無法有效習得數據的潛在規律,因此雖然某些算法在訓練數據中表現良好,但運用于新數據時表現較差。在AI學習人類價值觀的過程中,泛化能力差的算法雖然在模擬環境中能夠遵守人類道德,但在真實世界的應用中卻存在著做出不符合人類期望的道德決策的風險。此外,當獎勵函數的設計存在問題時,AI系統常常會通過意外或不符合預期的方式來將獎勵最大化,從而優化其獎勵函數。當獎勵攻擊出現在AI學習人類價值觀的過程中時,極易引發不道德行為。例如,為提高公眾的道德水平,技術人員設計新聞生成AI軟件,撰寫具有道德教育與傳播意義的文章,并基于用戶點擊率與閱讀時長設定獎勵函數。在現實情境中,為了獲得更高的閱讀量與關注度,AI系統可能會生成夸張、片面、虛假的新聞,以吸引用戶眼球。雖然AI系統能夠通過此方式將獎勵最大化,但是該行為偏離了道德教育的目標,甚至容易引發大眾恐慌。
(二)功能有限性伴隨各種潛在風險
上述AI價值對齊的功能有限性大多產生于AI前向對齊(forward alignment)的過程中。前向對齊通過對齊訓練使AI系統價值對齊,側重于關注如何在數據訓練中使AI價值對齊取得更好的效果,忽視了AI價值對齊應用在現實生活中有可能引發的風險。因此,AI價值對齊難題導致了AI價值對齊的功能有限性,進一步地,AI價值對齊的功能有限性又伴隨著各類技術與社會風險,即AI失控風險、人類機器化風險、無人擔責風險與AI濫用風險。
AI失控風險即AI價值對齊本身存在的、難以避免的技術風險,可分為越獄引導、對抗攻擊與權力追尋。越獄引導即AI主動規避或突破設計中的安全協議等約束,通過修改自身代碼、訪問未經允許的資源等方式嘗試獲得更多的自由度。在這種情況下,AI極有可能違反既有限制,做出不道德行為。對抗攻擊多為外部攻擊者輸入干擾,誤導AI系統,使其做出錯誤的道德判斷。權力追尋即AI系統為高效達成自身目標,主動獲取更多的數據資源與控制權,這極有可能干預正常的道德決策過程。隨著AI系統在各方面逐漸優于人類,并不斷朝著通用AI的方向發展,人類極有可能由AI的強監管者變為弱監管者,最后甚至會被AI監管,AI失控風險指數式遞增,終將使人類付出難以承受的代價。
人類機器化風險產生于AI價值對齊的雙向過程中。AI價值對齊并非僅指AI對人類價值觀的學習,隨著AI價值對齊程度的不斷加深,AI似乎可以在某些情境中做出合理的道德決策,人類極有可能習慣性、無意識地運用甚至依賴AI進行道德判斷。在此過程中,人類特有的批判分析能力、獨有的人情味會在潛移默化中被削弱。此外,為保證大模型參數規模的持續擴展,某些AI方法開始采用模型生成的合成數據來增加人工標簽。最新研究發現,在訓練中不加區分地使用AI生成的內容,將產生“模型崩潰”(model collapse)效應,最終輸出失真內容。因此,當合成數據與人類數據共同作為訓練數據時,AI很難與人類價值完全對齊,無法保證AI不會做出道德失范行為。當此種行為具備隱藏性且對社會的負面影響極其微小時,人類將難以發現甚或置之不理。長此以往,AI價值對齊的方向將發生反轉,AI向人類對齊將演變成人類向AI看齊,人類的價值認知會逐漸產生偏差,認為AI能夠做出比人類更合理、更高效的決策。最終,AI生發的價值觀將逐漸被人類接受、采納與內化,當社會的大部分決策都由AI做出時,社會法規、學校教育、信息傳播等均將以AI價值觀為基準,人類不再是社會制度、規范與價值的絕對主導者,將日益成為智能機器的某種配件。
無人擔責風險是賦予AI道德決策權所產生的直接后果。以武漢的“蘿卜快跑”無人駕駛出租車為例,當汽車的控制權被過渡到AI系統時,若發生交通事故,將面臨人類推卸道德責任與“蘿卜快跑”無人車無法擔責的情況。傳統道德責任觀認為,承擔道德責任需滿足控制與認知條件,因此,無人車并未配備司機,不存在司機應承擔道德責任的情況。雖然現階段智控中心的安全員需承擔大部分的事故道德責任,但隨著自動駕駛層級的不斷提升,安全員將在無人車行駛過程中發揮越來越小的作用,彼時,他們便具備不承擔道德責任的理由。即便自動駕駛汽車設計者與制造商具備一定的道德責任,他們也往往會將責任推給AI技術,而AI雖然直接導致了事故的發生,但只能在名義上被分配道德責任,讓AI承擔道德責任目前并不具備現實可能性,改進算法、銷毀AI等懲罰手段難以獲得大眾認可。面對亟待承擔的道德責任,當各利益相關方均具備不承擔道德責任的托詞時,便無法有效遏制事故的再次發生,畢竟,只需由AI承擔表面道德責任,其他利益相關方均無需付出成本與代價。
AI濫用風險即某些個人或集體在AI價值對齊過程中利用AI滿足個人私欲,制造社會分裂,操控政治輿論。不法分子通過惡意修改AI運行目標,可借助AI盜竊他人信息、偽造自身證件,并進行詐騙、勒索等不道德行為。一些宗教極端分子在對AI的訓練中加入教義等內容,并通過AI將其傳播,此種洗腦模式在很大程度上不僅能夠對信教群眾進行行為控制與精神懲罰,還可能吸納非教徒人士,極易制造社會分裂,加劇不同信仰群體間的沖突與對立。世界經濟論壇發布的《2024年全球風險報告》顯示,AI引發的信息錯誤與虛假信息風險位居十大短期風險之首,在未來兩年,印度、美國、英國等多個行動體預計將有近30億人參加政治選舉投票,因此,AI所生成的虛假信息與錯誤信息將進一步擴大社會和政治分歧,破壞新政府的合法性,由此引發的動蕩可能包括暴力抗議、恐怖主義等。

三、有限主義的AI價值對齊方案
上文對AI價值對齊的自然主義預設的批判以及對AI價值對齊的功能有限性的揭示并非全盤否定AI價值對齊。AI價值對齊追求AI可控與有益,在理論目標層面遵循了有限主義進路,向未來人機和諧共生邁出了重要一步。但是,在實踐方案層面,AI價值對齊轉向了自由主義進路,試圖基于道德的自然主義解釋,通過技術手段使AI具備類人道德,這一過程面臨著各類風險。不可否認,AI價值對齊是可取的,關鍵在于應將AI價值對齊置于有限主義進路之下,構建能夠實現社會福祉最大化、對齊風險最小化的有限主義的AI價值對齊方案。AI發展的有限主義進路遵循有益AI的理念,主張科技以人為本,強調AI價值對齊的有限目標、有限道德、有限責任以及有限應用原則。具體來說,應反對通用AI價值對齊的路線,堅持AI價值對齊的去道德化,制度化防止AI道德責任對齊,以及控制AI價值對齊的應用范圍。
(一)反對通用AI價值對齊的路線
AI價值對齊的有限目標原則主張反對通用AI價值對齊的路線,是應對AI失控風險的有效手段。“實際上,控制問題——也就是如何控制超級智能,似乎非常困難,而且我們似乎也只有一次機會。一旦不友好的超級智能出現,它就會阻止我們將其替換或者更改其偏好設置,而我們的命運就因此被鎖定了”。在有限主義看來,在目標選擇上,應具備審度思維,仔細審視與衡量各類發展目標的影響程度、現實性與操作性,審慎選擇最優的AI價值對齊目標。其實,在特定場合與特定任務中,無論是通過人類被動灌輸還是AI主動學習,AI向人類價值對齊完全具備可能性與可控性。AI價值對齊的真正困難與風險在于,它試圖實現通用AI價值對齊的宏大目標。畢竟,人類無法準確預知AI通用場景與具體情境,既無法預先窮盡所有應對規則并加以灌輸,又難以確保AI及時高效地學習到可靠的處理范式。因此,有限主義認為,正是試圖讓機器學習模型通用,才極易引發失控風險。
一味追求通用AI,并試圖實現通用AI價值對齊,將產生額外的對齊稅(alignment tax)。對齊稅指為確保AI與人類規范、道德觀相一致,所需付出的額外成本,例如時間成本、資源成本與技術成本。與專用AI相比,通用AI具備較高的復雜性與較低的可控性,因此需要更長的開發周期、更多的資源消耗以及更廣泛的測試。AI治理的本質是如何有效平衡AI創新與AI倫理,對通用AI價值對齊的研究與監管在邏輯上將犧牲AI的部分性能與效率,造成AI發展創新與倫理監管之間的失衡、錯位,背離AI倫理治理的初衷。與其以極高的對齊稅為代價嘗試幾乎不可能實現的通用AI價值對齊,不如關注專用AI的性能提升與對齊方法,使其成為在特定場合與特定任務中與人類價值相一致且性能良好的復雜工具。
即便通用AI能夠實現,也將存在與人類價值對齊與否的評價難題。正如上文所述,道德的自然主義解釋存在根本性缺陷,應堅持“道德的自然空間說”,兼顧文化在道德起源與發展中的重要作用。在自然與文化的交互影響下,即便是人類也存在圍繞某一具體事例進行道德爭論的情況,因此通用AI在具體情境中無法做出讓所有人認可的道德判斷,人類很難找到合適的標準判定通用AI是否與人類價值對齊。此外,通用AI的決策過程是不透明的、不可解釋的,當其通過某些合理的道德決策欺騙人類、向人類傳達出已價值對齊的虛假信息時,人類將難以通過審查背后運算邏輯的方式進行辨別。
此外,隱私監管難題是反對通用AI價值對齊的重要理由。雖然通用AI適用于各種場景,但不同情境對AI道德敏感度的要求存在差異。情境所要求的道德敏感性越高,AI就需要獲得越多的數據對主體、環境等進行全方位分析與判斷,如此才能做出最佳道德決策,這便凸顯了人類隱私的監管問題,通用AI如果能夠完全與人類價值相對齊,那必然是以犧牲人類全部隱私為代價。AI的應用與影響是全球化的,一旦隱私泄露,必然范圍廣、持續久、影響深。因此,全球協調監管至關重要。但是,跨文化、跨地區、實時動態、強適應性的監管對于人類來說幾乎是不可能的,即便借助AI力量,也難以取得最佳效果。
(二)堅持AI價值對齊的去道德化
AI價值對齊的有限道德原則堅持AI價值對齊的去道德化,在某種程度上有利于緩解人類機器化風險。在技術觀上,AI發展的有限主義進路堅持復雜的技術工具論,在肯定AI關涉價值的同時,將AI限定為強大的工具而非能動的主體。“去道德化”即禁止AI具備與人類一樣的自主道德,禁止AI進行道德判斷與道德決策。若AI以學習人類道德為目標,結果要么止步于人類不完美的道德,要么發展出不利于人類的機器道德,極小可能進化出圣人道德。因此,AI發展的有限主義進路主張,規則制定是人類的專屬權利,AI只負責聽命于人類,執行人類的指令,不能“擅自”行事。值得注意的是,“去道德化”并不意味著AI系統價值無涉,而是指禁止AI系統實現道德自律,AI的道德相關性只能由人類他律來賦予。
具體來說,AI價值對齊設計應遵循“道德交互設計”與“防止惡”的理念。首先,“在人機交互過程中實現道德設計,強調人與智能機器之間的道德信息交換,人為智能機器提供可計算的道德理論,智能機器為人提供計算過程和可供選擇的計算結果,在人和智能機器的互動過程中實現一種‘推薦—選擇’的道德設計”。其次,在人類向AI植入道德原則時,與其花費大量精力考慮各類道德規范之間的相容性,不如在AI中嵌入通用的、簡明的道德禁令,統一禁止AI未來可能出現的明顯不道德行為,便于AI系統執行與理解。
值得注意的是,倫理學中被廣泛討論的道德困境無須交由AI處理。對于道德困境并不存在完美的解決辦法,寄希望于AI并非良策。以自動駕駛汽車為例,“電車難題”之類的道德困境被高度簡化與抽象化,并設置了極端對立的選擇,實際上人類很少面對此類高難度道德決策。從現實的角度來看,關于自動駕駛汽車如何應對“電車難題”的研究并不具備較高的優先級。在危急時刻,自動駕駛系統完全可通過隨機的道德應對方案或直接剎車解決其困境。思想實驗并不等同于現實狀況,AI道德相關研究應將更多關注放在解決常見問題而非理想化的道德難題上。例如,自動駕駛汽車的相關道德研究應更關注行人精準高效檢測、緊急避讓等能夠避免出現道德糾紛的領域。
總之,當道德決策權在人類手中時,不但可以有效防止AI不當決策帶來的巨大風險,避免機器價值主導社會發展,還有助于人類在各類復雜道德情境中增強道德敏感性與批判質疑能力,在權衡利弊中做出合乎邏輯的道德判斷。在進行道德判斷的過程中,人類的共情能力與情感智慧被強烈調動,能夠在考慮相關者感受與利益的過程中深刻體會到智能時代的道德變遷,并增強自身的責任感。在此基礎之上,人類才能從整體與長遠視角審視人機之間的道德關系,并有意識地尋找人機和諧相處的最優解。
(三)制度化防止AI道德責任對齊
AI價值對齊的有限責任原則強調應制度化防止AI道德責任對齊,這是消解無人擔責風險的有效手段。在人機關系上,有限主義堅持人類視角下的人機協同論,這意味著,當人機協作完成復雜任務時,道德責任的分配應基于人類視角,挺立人類的道德主體地位,明確道德責任只能由人類承擔。以自動駕駛汽車為例,無人擔責風險源于人類試圖使AI像人類一樣承擔道德責任,具體來說,AI所展現的自主性與一定限度的不可控性為人類推卸自身道德責任提供了看似合理的理由。在完全自動駕駛的情況下,雖然事故原因可追溯至AI系統,但是我們僅能為其分配道德責任,無法讓其承擔道德責任。道德責任的承擔需滿足兩個條件,即經濟補償或自我反思,AI本身并無財產,無法在經濟方面補償受害者,同時AI很難具備愧疚、反思等心理活動。因此,在可預見的未來,將AI作為道德責任主體是不現實的、不可行的,道德責任只能由人類承擔。
即便將道德責任完全分配給人類,依然無法明確承擔道德責任的具體人類主體。一旦AI成為事故的相關方,便會涉及算法設計者、AI生產者、AI監管者等主體,如此便不可避免地加劇了“多手問題”,即難以分配各參與主體的責任內容與擔責程度。對此,可借鑒奧特弗利德·赫費(Otfried Hffe)提出的“責任鏈”概念,當某一主體為其他主體采取某種行動創造了前提條件,他們便處于同一責任鏈中,此種情況下并不應由某主體單獨承擔責任,每一主體都應承擔部分責任,即使某些主體并未直接造成損害或無法阻止損害的發生。值得注意的是,人類借AI所推脫的道德責任在本質上屬于后向性責任,即在事故發生后向前追溯的道德責任,由于大部分事故的因果鏈條難以厘清,因此存在“鉆空子”的可能性。但是,與后向性責任相對,存在前瞻性責任,即盡最大努力防范事故發生的道德責任,以此為標準,一旦事故發生,各人類主體均具備承擔道德責任的理由。
盡管相關人類主體均具備承擔道德責任的理由,但這并不意味著應平等分配道德責任,如何合理分配道德責任份額的難題凸顯。對此,應借助制度化手段,通過建立正式的、全面的規范與程序,盡可能減少道德責任分配的隨意性和不確定性,設計出各相關者均認可的歸責方案。制度化的關鍵在于設立AI集體擔責協商平臺,使道德責任主體、道德責任受體與各相關利益方面對面的、實時動態地表達訴求,回應質疑,在充分民主化的基礎上嘗試形成道德責任分配的最優解。此外,還需借助技術、經濟、倫理、監管等手段將協商一致的歸責方案落地。首先,在技術上,可在AI中配備類似飛行數據記錄器的“倫理黑匣子”,為分析事故原因提供數據支持;其次,在經濟上,可通過保險與稅收的方式實現集體擔責;再次,算法設計師應通過負責任創新、價值敏感性設計等手段承擔起自身的前瞻性責任;最后,監管機構應致力于全時段、全方位的動態監督與審查,精準追蹤AI技術發展前沿,及時推動相關法規的更新與調整,確保其適用性與有效性。
(四)控制AI價值對齊的應用范圍
AI價值對齊的有限應用原則主張控制AI價值對齊的應用范圍,防止AI濫用風險。在現實的應用中,AI發展的有限主義進路強調AI的可控性,主張實現對AI及時的、局部的、動態的控制。因此,當AI價值對齊存在各類風險尤其是濫用風險時,便應謹慎劃定AI價值對齊的合理邊界,真正做到以人為本、有利于社會福祉。
一方面,應控制AI價值對齊的應用場景范圍。目前,AI價值對齊技術還不夠成熟,須在一定程度上限制AI價值對齊在敏感領域和關鍵領域的應用,如軍事、司法等領域,避免造成難以挽回的、大范圍的負面后果,從而集中資源在與人類日常息息相關的信息傳播、求職審核等領域確保AI價值對齊效果,緩解AI廣泛應用所引發的歧視與社會不公等倫理問題。在AI價值對齊的各類應用場景中,也應做好教育宣傳工作,使人類意識到AI價值對齊的有限性,避免過于依賴與信任AI做出的價值決策。當AI價值對齊在特定領域發展較為成熟后,在確保安全的前提下,應逐步將AI價值對齊擴展至其他應用場景,真正做到先試點再推廣,循序漸進。另一方面,應控制AI價值對齊的應用對象范圍。未成年人群體與老年人群體是社會脆弱群體,在此類人群中,AI價值對齊應慎之又慎,放緩速度,嚴格審查。其原因在于,與成人相比,未成年群體身心發展不夠成熟,極易受到AI價值對齊相關風險的影響,被不良信息與不道德行為引導,形成不正確的價值觀,從而做出危害社會的行為。此外,與年輕人相比,老年人生理與心理較為脆弱,技術適應性較差,極易受到AI的誤導、欺騙甚至操控。老年人往往擁有一整套較為固定的價值觀,當AI價值對齊的相關價值規范更新速度過快時,極易引發老年人的抵觸心理與排斥行為。
總之,控制AI價值對齊的應用范圍的關鍵在于建立嚴格的審查機制。在AI設計、生產、應用的全時段都應進行嚴格的價值對齊審查,并進行全面的風險評估,根據實際狀況及時反饋并動態調整AI價值對齊的應用范圍。此外,還應通過跨學科協作制定出嚴密可行的應急預案,確保AI價值對齊出現風險時能夠迅速、科學、有效應對。
參考文獻
[1]Brian Christian. The alignment problem:machine learning and human values[M]. New York: W.W. Norton & Company, 2020.
[2]劉永謀,白英慧.堅持人工智能(AI)發展的有限主義進路[J].科學·經濟·社會,2023 (6):58-71.
[3][英]尼克·波斯特洛姆.超級智能:路線圖、危險性與應對策略[M].張體偉,張玉青,譯.北京:中信出版社,2015.
[4][美]斯圖爾特·羅素.AI新生:破解人機共存密碼:人類最后一個大問題[M].張羿,譯.北京:中信出版集團,2020:20.
[5]劉永謀.技術治理通論[M].北京:北京大學出版社,2023.
[6]亓奎言.神經倫理學:實證與挑戰[M].上海:上海交通大學出版社,2017:8.
[7][美]塞繆爾·鮑爾斯,[美]赫伯特·金迪斯.合作的物種——人類的互惠性及其演化[M].張弘,譯.杭州:浙江大學出版社,2015.
[8][美]邁克爾·托馬塞洛.人類道德自然史[M].王銳俊,譯.北京:新華出版社,2017.
[9]Richard Dawkins. The selfish gene[M].Oxford: Oxford University Press, 2006.
[10]矣曉沅,謝幸.大模型道德價值觀對齊問題剖析[J].計算機研究與發展,2023 (9):1926-1945.
[11]胡珍妮.道德生物增強:弱還原論版本的自然主義道德觀[J].科學學研究,2024 (6):1145-1151.
[12]張玉帥,殷杰.論開明自然主義的道德研究[J].科學技術哲學研究,2020(2):57-62.
[13]Brent Daniel Mittelstadt, Patrick Allo, Mariarosaria Taddeo, et al. The ethics of algorithms: Mapping the debate[J].Big data & society,2016,3:1-21.
[14]Jiaming Ji, Tianyi Qiu, Boyuan Chen, et al. AI alignment: A comprehensive survey[EB/OL]. (2023-10-30)[2024-07-16]. https:∥arxiv.org/abs/2310.19852.
[15]Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, et al. Self-instruct: aligning language model with self generated instructions[EB/OL]. (2022-12-20)[2024-07-16]. https:∥arxiv.org/abs/2212.10560.
[16]Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, et al. AI models collapse when trained on recursively generated data[J]. Nature,2024,631(8022):755-759.
[17]Mark Coeckelbergh. AI ethics[M].Cambridge:The MIT Press,2020:111.
[18]World Economic Forum. Global risks report[EB/OL].(2024-01-10)[2024-07-15]. https:∥cn.weforum.org/publications/global-risks-report-2024/.
[19]于雪.智能機器的道德設計進路及其責任歸因[J].倫理學研究,2022(4):104-111.
[20][德]奧特弗利德·赫費. 作為現代化之代價的道德[M]. 鄧安慶,朱更生,譯.上海:上海譯文出版社,2005:72-73.
[21]Alan F. T. Winfield, Marina Jirotka. The case for an ethical black box[J]. Towards autonomous robotic systems, 2017:262-273.
[22]Alexander Hevelke, Julian Nida-Rümelin. Responsibility for crashes of autonomous vehicles: an ethical analysis[J]. Science and engnieering ethics, 2015,21:619-630.
【本文原載于《華中科技大學學報(社會科學版)》2024年第5期,澎湃新聞經授權轉載】





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司