下載客戶端

登錄

人工智能價值對齊的哲學思考｜價值嵌入與價值對齊：人類控制論的幻覺

吳靜（南京師范大學公共管理學院哲學系教授）

2024-11-10 13:23

來源：澎湃新聞

價值對齊反映了對人類智能與人工智能關系進行簡化的理論惰性，其本質潛藏著一種價值維度上的人類中心主義投射，同時也體現了人類在技術自治性面前的不安感。價值對齊是一種企圖將所有的技術-社會的復雜性問題都置于“價值偏差”的系統性盈余中予以整體性解決的技術治理方法。然而，將人類價值觀嵌入人工智能系統，一方面會使得技術的發展成為最小化人類責任的借口；另一方面，這種話語以一種抽象性的人機價值差異掩蓋了人工智能技術發展全過程中的價值性因素，從而以價值排他性的方式將人工智能的“問題”建構為一種絕對意義上的外在，使得關于價值的討論只逡巡在人機的邊界之上，而不向人類內部返回。從這個意義上來說，人工智能已經建構起來的社會歷史中的價值無意識和不平衡的數據分布現實，是一個關于“具有自主性的智能體應該和不應該被如何設計”的問題。因此，人工智能的價值判斷基礎應當由外在的價值嵌入轉向具身認知和知覺能力的形成。只有通過有效的人機交互與環境感知，打造開放式人機生態體系，鼓勵開發與人類處于更廣泛的目的分享和責任分擔的人工智能，才能防范由技術所導致的任何形式的壟斷。

吳靜，南京師范大學公共管理學院哲學系教授、博士研究生導師，南京師范大學數字與人文研究中心主任

在大模型技術狂飆突進的今天，隨著數據規模和算力的不斷提高，以及模型調整對于場景-價值多元化的適應，人工智能的性能持續躍遷，涌現不再是偶發的技術意外，數智應用的泛化性、通用性和界面友好性都有了質的提升，成為架構人類社會發展當之無愧的技術基底。如何建設安全有效的數智設備，避免人工智能因其自身的技術特征或外在原因的濫用產生危及人類的后果，已成為AI行業研發和應用過程中的核心議題之一。一方面，數智技術的全面嵌入和良好的交互性使得用戶對人工智能的期許和信任度不斷推高；另一方面，可解釋性陷阱的存在以及技術-社會兩者發展邏輯在本質上的異質性使得“AI威脅論”從未真正消失，對AI可能帶來的風險和挑戰進行防范的研究方向之一就是探索引導和操控“超智能”AI系統的新方法。其中的一種路徑就是通過價值對齊的方式確保人工智能追求與人類價值觀相適配的目標，敦促AI以對人類和社會有益的方式行事，不侵害人類的價值和權利。

這無疑是一個看起來很美好的目標。它寄希望于在意圖和價值觀方面對人工智能進行“類人馴化”，以使其達到從意義上理解人類行為和選擇并予以遵從的目的。簡單來說，就是使建立在龐大的、多元化數據集基礎上的大模型預訓練結果既合法又合乎道德。從業界在這方面的努力來看，2023年7月，AIGC的領軍企業OpenAI宣布成立一個新的AI對齊團隊，這個超級對齊團隊（superalignment）的目標是在4年內讓超級AI系統實現價值對齊和安全。為此，OpenAI承諾將投入20%的計算資源用于對齊超級智能，而項目的核心則是訓練出一個大致與人類智識水平相當的AI自動對齊研究員，再借助自動對齊研究員找出對齊超級智能的方法。除此之外，谷歌、微軟等公司也都紛紛跟進，成立了類似團隊，將價值對齊作為尋求人工智能安全性和一致性的重要途徑之一。一時之間，價值對齊的口號風頭無兩。

2024年7月，OpenAI宣布解散超級對齊團隊。表面上看，這是OpenAI內部發展不同方面優先級之間競爭失衡和資源分配的結果，但從另一個角度也展現出價值對齊的推進難度。然而，筆者的目的并不在于從技術角度解析現有的價值對齊工具的有限性及其模型風險，而是躬身進入價值對齊理念背后的技術觀，揭示其潛在的控制論色彩，解讀它所可能導致的對于人機關系的狹隘誤讀，進而在技術哲學批判的基礎上探究它所面對的挑戰。因為，恰恰只有拋棄簡單樂觀的價值移植，重回技術-社會自身發展邏輯，直面其復雜性，才有可能在數智高速飛躍的時代重新為人工智能的發展劃定邊界和準則，并建構起新型的人機交互和融合的健康模式。

一、“科學”與“價值”的虛假對立：人工智能責任的不對稱性

談到價值對齊，就不得不提到另一個稍顯生硬卻更為直接地表達了某種意義上人機對立的概念：價值嵌入。從本質層面來看，這兩個概念都是基于“對立論”的視角，強調數字技術自身的運行和發展所具有的超強自治性，強調人工智能技術與人類權利和福祉之間的對立和沖突，希望通過算法倫理審查、增加數據離散度以及預訓練模型微調的技術方式，將具有特定人類價值傾向的立場和原則“移植”到智能設備中，從而最大限度地預防和消解技術理性與社會理性的差異所導致的風險和負面效應。在這里，人工智能被設想成了和人類智能處于對立位置的價值中空物，它被作為實體從技術的第三持存中剝離出來，評論者絲毫沒有意識到人工智能技術的任何具體化形式，本身已經負載著人類智性積累及其社會文化內涵。

就某種意義而言，這種對立傾向是技術崇拜意識形態的延續。自近代以降，當自然科學從整體性的學術體系中分離出來之后，“科學”與“社會”就被置于嚴格二分的狀態中。長期以來，人們理所當然地認為，科學事實和其所言說的對象性實體作為自在之物，在被科學家發現之前就存在于這個世界上，任何社會的、文化的、意識形態的因素并不能影響或改變其存在。正因為如此，與后者的易變性和價值的情境性不同，科學排除了價值判斷，呈現出“中立”和“客觀”的超然。“在理性的控制之下引起人與自然物質轉換的某種全球統一社會秩序形成的可能結構”，科學意識形態正是擔當了這種提供連續性的秩序基礎。馬克斯·舍勒將實證科學及其結果與形而上學及宗教知識看作平行且分離的兩個互不干擾的領域，認為后者是終極目標和價值旨歸。

與此相對，拉圖爾則認為，在這種二元論影響下，科學事實被視為已經完成的封閉系統，成為真理、進步、普遍、理性的象征，擺脫了與文化的糾纏，更超越了地方性情境，從而獲得了普遍的客觀性。而“社會”或“政治”“文化”因素則成為科學之外的含混話語，代表了某種難以言明的前現代傳統中的復雜性，從而使自然與文化之間的不對稱性轉變成為過去與將來之間的不對稱性。然而，這種二元劃分并非恒定不變。一方面，它實際上是以現代性為基礎的近代科學體系的一個假象，并最終在控制論的意義上導致了科學意識形態的出現。拉圖爾指出，將自然作為研究對象的近現代科學實驗體系以其方法為自然對象賦予了客觀性，使其成為具有超驗性的象征符號，進而反證了科學的理性基礎，形成了論證的循環。另一方面，社會的超越性同樣也是被預設的，因為只有這樣，它才能獲得作為整體的合法性基礎，從而發揮作用。這種二分法的結果導致了自然還原主義或社會還原主義。其實，對這種還原主義的批判并非始自拉圖爾。20世紀70年代的愛丁堡學派就提出了強綱領和“利益解釋”模型，主張科學知識在本質上是由社會建構而成的，從而形成了“科學知識社會學”；同時，該學派反對實證主義和基礎主義，將科學視為一種文化實踐的場域和結果，反對還原主義的闡釋路徑。他們所提出的“對稱性原理”，主張將據信正確的或錯誤的表述同等對待，即對所謂客觀和非客觀的解釋都持中立態度，并根據其社會影響予以對稱分析。

然而，這種互滲式的建構主義立場在拉圖爾看來遠未擊中要害。因為，所謂“社會”建構的提法依舊將“社會”作為一個先驗存在的實體獨立于科學之外。只不過這一次，科學知識社會學將優先性的天平傾向了名為“社會”的假設集合，使其成為可能施加控制的一方。事實上，不但科學不是獨立的存在，社會亦然，它是“另外一段不可見時空中不同力量之間凝結和固化的產物”，所謂“科學”，亦即是這諸多力量之一。盡管這也是拉圖爾稱之為“盡可能將精確知識與權力運作之間的二分割裂狀態重新交織起來”的努力，但它并沒有從本質上擺脫決定論的控制色彩。為了消除這種誤解，拉圖爾在再版自己和史蒂夫·伍爾加合著的《實驗室生活：科學事實的社會建構》時將其改名為《實驗室生活：科學事實的建構過程》，以此和社會建構主義劃清界線。兩位作者根據經驗性的實驗室研究過程提出，科學研究對象實際上是在實驗室內由習俗性的觀念、規范和方法構建而成的概念體系，并非獨立于儀器和范式之外的存在，而是社會存在的展現方式之一。換言之，社會具身性的文化、習俗和觀念對于科學研究及其方法的理解和界定同時決定了科學研究對象的合法性。正因為如此，科學活動本身應當被視為一種理念、傳統和特定文化實踐的體系——科學是一種文化，而非獨立性的“中立”原則，社會同樣也不只是價值的集合，它們之間互相界定，彼此參與，必須重新思考科學之所是以及社會之所是、所能的全部內涵。在這個意義上而言，拉圖爾遵循了安德魯·芬伯格對于技術哲學的社會使命的界定：對被默認為理所當然的現代性的合理性進行反思。他對科學實踐把曲解的現象解讀為事實非常不滿，因而重釋了科學實驗對所謂“科學事實”的建構過程，希望以具有人類學意義的實踐活動引導讀者重新理解科學實踐及其與社會的關系，從而消除人們觀念中自然和社會之間的絕對分野。由此出發，他對于現代科學技術所制造的科學意識形態崇拜提出了批判，并關注科學與社會的聯合生產同權力互構過程中的關系網絡，探討為何以某種方式提出問題并界定其條件的機制。

如果遵循這一路徑來探討價值對齊問題，就不難發現其話語背后隱藏著深刻的人類中心主義的控制幻想。價值嵌入和價值對齊的說法假設了一種整體性解決的方案，它將對（假想的）去道德化的人工智能進行拯救的責任賦予人類，相信人類所形成的價值體系和原則足以為人工智能技術的發展植入更好的目標和原則，而全然忘記了不但算法的設計本身就帶有倫理性，人類同時也在被數字技術和人工智能設備所改變。

然而，中立的數智技術本身并不存在。算法、數據、模型、獎懲函數等任一環節本身都有可能使輸出結果呈現出特定的價值取向。例如，當谷歌發布的多模態大模型Gemini被要求生成一張“白人家庭”的圖片時，系統拒絕了這一請求，它所使用的理由是“無法生成針對特定族群的圖片”，因為“此類內容可能存在歧視、刻板印象”。然而，當要求被更改成生成一張“黑人家庭”的圖片時，Gemini即時按照要求完成了任務。很明顯，與任務的對稱性相比，輸出結果的不對稱性明顯受到了模型微調的影響。美國最高法院的保守派黑人大法官克拉倫斯·托馬斯被Gemini生成白人面孔則在很大程度上是因為和“法官”相關的數據樣本中白人偏多。當亞馬遜公司開發并投入使用的“簡歷篩選系統”會對同等條件的女性候選人的簡歷給出相較于男性更低的評分時，很難判斷這是因為數據類型還是編寫者的傾向性導致了這種偏差。由此可見，人工智能的技術特征決定了影響其結果的因素必然是多方面的，而且由于技術黑箱的存在，這種影響并不總是易于判斷和矯正。何況，矯正的結果也并非一定能達到預期。正如谷歌研發團隊在試圖解決訓練數據集的種族主義傾向時引入的多元化矯正方案就出現了與歷史事實不符的錯誤。

可見，人工智能技術從來不是一個獨立于人類智能之外的系統，相反，它從開發、形成到測試及至運用的整個過程都浸潤在人類的行為和經驗之中。這些經驗和事實未必只受到數字化或互聯網的左右，它們是人類社會內部所包含的歷史、文化、習俗乃至偏見或沖突的投射。完全“責任主體”的認定在人工智能技術的實施過程中難以確定，這也就使得價值“嵌入”或“對齊”的目標是否可以通過研發團隊一攬子解決本身就是存疑的。從結果上來看，當谷歌試圖為確保Gemini避免過去圖像生成技術的陷阱而進行調整時，顯然因為某種忽視而造成了過度輸出或過度保守的后果。

《智能的本質》一書的作者皮埃羅·斯加魯菲通過一個無人機殺人的極端例子來描述人工智能應用過程中的追責難題。他的問題是，是提供地理位置信息的谷歌地圖團隊、提供目標情報信息的特工、提供攻擊軟件應用的供應商，抑或是負責為整個攻擊行為編寫程序的團隊，還是下達攻擊命令的負責人該為此次行為負法律或道德的責任？針對這個例子本身，答案可能因人而異，但它卻生動地表明了在數智技術應用愈加普及的時代里兩種越來越明顯的傾向：一是流程環節的增多，使得責任鏈延長，從而造成責任主體難以認定。這當然并不是新的現象，曾有人在為自己的罪行進行辯護的時候就已經熟練地使用了這一理由。然而，數字技術的共享性特征和流程的非線性使得這一問題愈加復雜。二是責任問題的核心外移，使機器/技術/人工智能成為被糾責的對象。責任環節的增多使得每個環節的人都有借口從整體的責任中逃脫，“高度分化的勞動分工對應著普遍的合謀，而這種合謀對應著普遍的不負責任。既然每個人都同時是原因和結果，也就意味著沒有原因” 。與這種不必負責任的形式合理性對應的正是價值和倫理上的脫嵌與免責。于是，人工智能仿佛構成了一個系統性的他者，它完全依賴自身的法則并通過自身而運動。并且，由于它被設想為去價值化的中空實體，一方面人類個體和集體為自己的動機和行為卸下了所有的哪怕是最小的道德負擔，仿佛所有的結果不過是作為人類社會大他者的數字系統“中立”而“客觀”的結果；另一方面，他們又通過對體系的價值抽離，將道德上的優越感握在手中，仿佛獲得了通過“價值賦予”的“嵌入”或“對齊”的類人化改造，可以牢牢掌握住人工智能的控制權。從本質上來講，這不但是一種價值維度上的人類中心主義投射，同時也是在技術的自治性面前人類不安感的體現。他們想象著將所有的技術-社會的復雜性問題都置于“價值偏差”的系統性盈余中予以整體性解決。這不但在現實條件中難以實現，而且也透視出一種理論和實踐上的避重就輕：它使得技術的發展成為最小化人類責任的借口。

當然，批評這一點并不意味著人工智能系統本身不存在與人類社會價值取向不一致的地方。事實上，數據技術邏輯與人類社會邏輯本質上存在著極大的異質性。這里既有具有規律性的可壓縮的數據信息流和具有混沌性的不可壓縮的經驗信息流之間的區別，也有技術理性的效率原則、增長倫理和人類價值體系之間的差異，同時還關乎對于可能因此產生的社會風險的界定和判別方式。經由這些復雜性因素而建立起的關聯，實在難以被納入價值嵌入或價值對齊的框架。

二、價值對齊：賽博烏托邦的控制論話語

菲利普·K.迪克在《仿生人會夢見電子羊嗎》中描寫了一個人性與非人性追逐與轉化的故事。在男主人公里克對仿生人的追捕中，他所依賴的辨別依據是移情測試。因為人們相信移情是人類與仿生人之間的唯一差別，其原理是人類的群體本能所導致的情感投射，會對除自己以外的生物產生關愛。仿生人作為“獨居的捕食者”，無法體會甚至無法假裝出這種情感。這種預設出來的對立有其內在邏輯上的悖論：人類的移情反應被相信會投射到動物身上，但卻不包括仿生人，盡管后者在外形上和人類一樣，甚至也可以在其他方面表現出與人類相似的行為。這也就意味著，作為人性核心特征的移情能力既排除了仿生人作為其對象，也杜絕了被仿生人獲得的可能。仿生人作為人類智能科技發展的卓越成果（甚至可以實現對仿生人的記憶植入），卻在大前提上被設置了一個禁區。探究其背后真正的原因，可以發現，人類制造他們本來就是為了奴役，對仿生人的移情將使得工具式的利用和獵物式的追捕難以進行。可見，從心理層面來說，制造移情“缺位”不是因為技術的障礙，而是出于奠定人類的優越感和控制感。一個缺乏移情的行動體無論怎么與人相似，都因為沒有“人性”（移情）而喪失被平等對待的資格。

這種二元對立與價值對齊背后的心理機制如出一轍，都體現了對智能對象的控制化敘事——無論是最初的簡單工具化還是后來以辨別（《仿生人會夢見電子羊嗎》）或拯救（價值對齊）的方式來重新贏回控制權的可能。菲利普·K.迪克以反諷的方式對人類的這一核心特質和潛在的優越性進行了顛覆：其一，在他的筆下，仿生人蕾切爾不但幾乎通過了測試，甚至展現出對同類仿生人的移情，而這正是人類無論如何也做不到的。不僅如此，小說中的真正人類，不管是其他的仿生人追捕者，還是男主人與其妻子，彼此之間都以自身為中心，缺乏理解和關切。在兩相對照下，移情作為被人普遍相信的區分特征的地位搖搖欲墜。其二，在小說的第十八章，移情共鳴箱被揭露為是一個巨大的騙局，它所表現出來的融合感以及測試量表的標準不過是一種人為的編織和表演。于是，無論是根據“移情”與否所進行的對仿生人的獵捕，還是關于“移情”本身的神話，都不過是維護人類居上位的優越感制造出來的敘事。它可以是“移情”，也可以是人類假設人工智能不具有或無視其具有（正如將智能裝置設想為價值“中立”的空心體一般）的其他特質。當用這種特質對客體進行判斷的時候，往往和客體的真實情形無關，而僅僅和據此做出結論的預設有關。

科幻小說的結局并非如好萊塢同類電影那樣以智能人發展出移情/情感作為大團圓式的融合，相反，菲利普·迪克表達了傳統人工智能敘事中對關于人機差別和共生的、想象貧乏的質疑和不滿。其根源在于“人工智能威脅論”的恐懼被反轉式地改寫為對其進行奴役的故事。在這個意義上，小說開始處關于仿生人在火星的勞作狀態的描寫也不難被解讀為早期殖民主義的科幻版。仿生人被人類主體放置于移情共鳴的對象之外的時候，“他們”成為不予考慮的他者，被懸置性地排除在人類情感-價值體系之外。這和數個世紀之前發生在性別話語以及更早的種族話語中的情形是同構的。因此，如果把《仿生人會夢見電子羊嗎》看作帶有反殖民控制色彩的文本，就可以從中看到價值對齊論真正的問題所在。

這種話語對人工智能技術發展全過程中的價值性因素視而不見，代之以一種抽象性的人機價值差異，這其實是對人工智能輸出結果的不如人意的解釋，也是對發生問題的邊界的設定。在界定中，抽象的“人類”價值和正確性的場域得以確保，但不是以本質主義的方式（因為價值的多元化），而是以價值排他性的方式將人工智能的“問題”建構為一種絕對意義上的外在，關于價值的討論只逡巡在人機的邊界之上，不向人類內部返回。這既反映了對人類智能與人工智能關系進行簡化的理論惰性，也召喚了古老的價值殖民方式的回歸。價值對齊隱含的“人類價值”預設以一種一元論的方式制造了作為操控性主體的單一基質和連續性，而“對齊”過程則被理解為由這個主體發起的單向過程，絲毫沒有意識到在已經建構起來的社會歷史中的價值無意識和不平衡的數據分布對人工智能技術的影響。價值對齊強調的始終是主體形而上的尊位，它有權決定“嵌入”“對齊”或視若無睹。然而，越是承認數字技術所具有的自治性，就越應該意識到所謂問題的解決不是（也絕不可能是）價值對齊這種“由主體發起并最終導致一系列固定后果的因果過程”。人工智能表現出來的價值“錯位”不僅發生在技術形成到應用的整個流程中，而且如前所述，其本身也是一個基于復雜性因素不斷疊加的過程。當然這并不是說對人工智能輸出中那些令人不安的問題不能進行治理，只是價值對齊這樣的措辭會基于錯誤的人機關系設想而夸大人類主體的能動性，并誤導不合理的解決方式。如在數據治理過程中存在的工具理性與價值理性之間價值導向層面的矛盾，是不是僅靠價值移植就能解決，其本身就存在疑問。而要在數字化、智能化轉型的浪潮中加快推動符合人文主義價值的數字生態治理機制，則需要從正視人工智能和人類智能的關系開始，進而深入分析問題的成因。

所謂的人工智能的“奇點”的到來，在很大程度上反映了人類在自己的創造物的強大性能面前的不安。如果說在前智能時代，機器技術體系在力量、復雜性、精密度方面的超越還只是局部功能的增強，不足以引起人對引以為傲的本質——思考/理性的擔憂，那么生成式人工智能在知識生產、理性設計、語義邏輯乃至可以帶有情緒性表達的自然語言處理方面展現出來的卓絕能力讓作為創造者的人類在內心再一次感受到了新版的“機器人威脅論”——AI威脅論。對可能失去控制的擔憂讓設計者期待以某種方式重新贏回決定權，于是，人工智能設計和治理又一次處在更深的“恐惑谷”的悖論境地：一方面，整個人工智能的發展過程一直以類人性作為超人性的基礎，從任務實現到輸出方式、到理解能力都希望有明確的可解釋性、與人類保持一致性，哪怕在外觀的設計上也從未放棄過“人形智能機”的設想；另一方面，這種類人性和超人性發展得越好，人類自身就越恐慌，尤其當最新的生成式人工智能突破了“波蘭尼困境”，在多模態知識生產上已經可以依賴網絡文本數據庫和大模型技術實現自我生產的時候，不但人類心理上的恐慌越發嚴重，治理過程中所面臨的風險也更加多元化和強化。抵抗不安感的最好武器是規范性。價值對齊的目標正是以建構規范性價值傾向來實現人工智能治理。然而，這里仍然存在另一個悖論，即“算法的價值傾向性越小，其越多以功能服務模式體現為滿足單一確定目標的中立性工具職能，并因此只涉及線性且結果導向的治理要求；算法價值傾向性越大，其越多以畫像評價模式體現為針對不同目標進行選擇排序以作出價值性評估”。可見，價值傾向度的增加在一定程度上與功能的通用性之間呈現出反向趨勢。因此，到底有沒有可能以規范性的總體策略解決多元化的風險，并沒有肯定的答案。比起價值嵌入，盡管價值對齊的措辭稍顯緩和，但它依舊遵循了以人類社會取向干預或改造人工智能技術的規范性塑造路徑。對于這一方法，“既有的技術治理史表明，總體策略在現實中并非沒有人堅持，事實上不少技治主義者的頭腦中均帶有總體主義的主觀性，但結果在實踐中收獲的均為局部和具體的技治推進，根本沒有實現過各個微小技治系統的完全統一協作。從這個意義上，可以說總體策略均以失敗告終”。或者，更簡單地說，算法治理的目的和結果都不是簡單地價值對齊，它需要重新衡量技術實現和應用中的具體問題。因為所謂的價值對齊，并不是通過增加價值矢量和獎懲指數就可以實現的，它涉及到數據爬取和清洗、算法設計和測試，到應用場景的每一個細節，并且它和技術算力之間也不完全是正向關系。例如，“在使用RLHF（reinforcement learning with human feedback，基于人類反饋的強化學習）進行價值觀對齊時，）對齊行為無形中為AI大模型的能力涌現戴上了‘緊箍咒’，）以犧牲模型能力的方式來換取價值觀對齊” 。OpenAI超級對齊團隊的解散就真實地反映了這種沖突的強度，團隊負責人在后來發表的個人聲明中一再強調由于公司將產品性能置于價值對齊之前，以至于團隊獲得的計算和數據資源并不足夠。這說明，盡管價值對齊的結果和成效尚處于難以評估的狀態，但其依賴于社會預測和強反饋以及偏好排序的控制論做法，本身就是在算力上缺乏執行的可靠基礎。

印度比拉理工學院的機器人模擬專家阿卡普拉沃·包米克在談到具有自主性的AI智能體設計需要遵循的原則時，特別強調了只有從具身認知的特性、而不是抽象的人機對立原則出發才能有所突破。由于認知本身是基于同智能體自身所處的環境之間的交互而形成的，它首先具有情境性，并且這種情境性認知會建立起一個隨著時間壓力而推進的連續的進化響應，從而動態地生成適合于情境的價值判斷或行動。這種認知模型本身不具有泛化擴展性，因此只能以環境反饋的方式進行補償，而無法“完全形成對相關行為的系統響應”。這也就解釋了為什么Gemini的研發團隊在試圖糾正訓練數據集的數據分布不均衡所導致的種族主義偏差時，為什么會引發更顯而易見的錯誤。它同時也導向了一個價值對齊的擁護者們容易回避的問題：對齊行為的效果并不如器官移植一般理想，它更像是基因修改，其下游的風險難以預測。因為“被設計的倫理/價值”在何種意義上可以與持續性的智能體-環境交互系統始終保持自洽，這本身就是一個需要證明的命題。與現實情境中的價值多元相對應，其實并不存在抽象的有益于“人類”的唯一價值。特定的價值總是使一些人受益而損害另外一些人的利益。每一個具體的價值判斷都依賴于上下文信息和在不同的規范性領域（如道德、習俗、認知和政治）進行協調行動的技巧，而不是某種作為標準方案的規范性的“對齊”。“沒有什么可以保證標準解決方案所呼吁的建立只重視人類的人工智能的普遍政策得到普遍實施。在一個利益競爭和許多壞行為者的混亂世界里，標準的解決方案看起來像是一種冰冷的安慰”。“對齊”的設想更接近波普爾所批評的社會改造的“烏托邦策略”，只不過這一次是賽博屬性的，它以維護理想價值原則作為控制論的首要原則，從而必然導致實踐中的教條主義和獨斷論。而且，對首要原則和總體策略的任何質疑，都有可能導致顛覆性的結果；使得哪怕是技術性的糾錯，都要耗費巨大的社會成本（尤其考慮到數字技術和人工智能的普及），甚至是徹底失敗。

三、直面人機系統生態：從具身認知到開放性網絡

美國計算機應用專家戴維·波爾特在《圖靈人：計算機時代的西方文化》一書中以“圖靈人”的具身化比喻，將計算機的工具理性原則所塑造的技術無意識的社會化和個人化生動地表達了出來。“圖靈人暗示人與信息、工作、權力和自然的關系……計算機把人界定為‘信息處理器’，把自然定義為信息處理的對象”。整個世界的加速數字化（然而卻并不均衡）使得數字技術形成了一種連續性的基礎，將一切人、機器、制度整合進了“萬物互聯”之中，以至于不但很難再將屬于數字技術的工具理性和衡量標準從事物中剝離出來，甚至連認知都受到了新的知識生產范式的影響。紛繁復雜的世界以一種追求確定性的方式被某種形式上的一致性所連綴，它仿佛陀思妥耶夫斯基筆下的由鋼鐵和玻璃建造起來的巨大的、無縫籠罩的水晶宮，透明奪目，令人驚嘆，將一切的復雜性都吸收到自己的內部，賦予其中的一切以抽象且勻質的合法性。只不過在今天，這個數字化的“水晶宮”的建筑材料是0和1，物理形狀上無所不包的穹頂則被無數的連接所形成的扁平結構所取代。這個以1862年倫敦萬國博覽會展館為原型的關于世界的隱喻，“已經為集中的、體驗為導向的、大眾化的資本主義（尤其是數字資本主義——本文作者注）做好了物質準備，廣泛地將外部世界吸收到一個完全精確計算的內部空間里來。……它的維度足夠大，以至于也許人們根本不用再離開它了”。

人工智能日益廣泛的應用，在日常生活領域悄無聲息地掀起了一場革命，無數的在線服務和應用程序將處于不同地區的人類基本活動的每一個細節聯系起來，不但幾乎所有的社會關系被在線技術重構，而且同時伴隨的還有一些關系的消亡和另一些新型關系的形成。作為數字實體運營的網絡平臺擁有的活躍用戶數量有可能超過很多國家的人口。然而，與這種技術上的連續性形成鮮明對照的是，觀點、價值、立場的多元化和沖突也更加以顯性的方式得到展現，它們甚至超越了前數字時代的地緣界限。“聚集在流行網絡平臺上的大量用戶群體比政治地理意義上的群體邊界更為分散，而且網絡平臺運營主體的利益可能與國家利益產生分歧”。人工智能裝置的出現只是在已經足夠復雜的多元化和沖突之間增加了一些新的維度而已，技術的連續性從來就不是也不可能是價值一致性的形式保證。

盡管數字理性本身具有基于技術特征而呈現出來的共性，但它和復雜的人類價值體系仍然處于不對稱的狀態，因此，希望對人工智能實現基于技術連續性的價值一致性改造本身是難以實現的。這涉及人工道德的想象和設計的問題。即便是在激進科幻小說中，建立一種普遍性的人工道德不但是難以令人信服的，也是在倫理上被詬病的。僅有的實踐性嘗試也只限于在電子游戲和特定的虛擬現實中，因為這兩者的設置都是抽離了一切復雜性的環境簡化，并且也不需要隨著環境的改變做出判斷適應。但真實的數字環境哪怕是在最基本的條件下也必須處理諸如有偏見的數據、算法不透明以及獎勵功能無法表征復雜的倫理規范等問題。即便有學者提出以強化反饋學習的機制、允許機器通過觀察人類的實際行為來內化偏好模式從而采取行動的方式，也依舊不能打破以偏概全的數據鴻溝。事實上，價值對齊所暗含的人類中心主義價值觀早在生態主義理論中就引起了相當大的爭議，環境倫理學家區分了以人類為中心的觀點和以生態系統為中心的觀點之間的差別。因此，相當多反對價值對齊的研究者對于人工智能實現對齊（姑且不考慮技術上的現實性）之后是否會造成生態災難表示擔憂。

和基于數據科學的人工智能技術的連續性不同，價值的不連續性來源于其自身的特征，從本質上來說它并不是一套精確的規則和條件判斷，而更像是一個具有彈性的語法體系，其中包含了很多從歷史文化信仰體系中獲得的內化性原則，包括但不限于文化傾向、歷史習俗、社會信念、群體觀念、政治意識形態、地域、宗教、種族、性別甚至職業身份等多重元素。目前大多數科創企業所采取的通過強調匹配不同算法特征及其治理需求的分類治理框架來實現價值對齊的方式，體現為應用環境通過對輸入變量賦值進而對輸出結果產生影響，如對生成式人工智能進行預訓練后的模型微調就屬于此類。這種思路由設計者將被預設為普遍性的價值原則嵌入智能自治系統中以形成特定的概念空間，然后根據場景調用。于是，下游應用中的相關符號被賦值，并納入與該價值原則相關的關系之中。這就是為什么“輸出一個白人家庭”的要求會被Gemini拒絕，“白人”作為敏感符號被賦值與種族主義立場相關，而有色人種的要求則不會。這種“價值屬性”其實并不是人工智能對人類價值觀的理解，只是出于算法編寫者的設計。從這個意義上說，價值對齊的敘事編織從根本上說并不反映被假想出來的人機差異，而是關乎人工智能設計和算法治理的問題，更簡單地說，它是一個具有自主性的智能體應不應該，以及如何設計的問題。

反觀人類自身的基于道德判斷的行為，就會發現，具身認知和知覺能力是形成完整價值判斷的基礎。因為具身認知是有機體適應環境、對多種感覺刺激進行辨別并形成綜合理解的活動，在此基礎上形成的情感、道德和價值判斷以及相應的行動和具身認知，是不可分離的。這種具身主義的觀點對認知主義是一種否定。后者相信，人類的心智實際上是一種特殊的信息處理系統，可以理解為根據某些特定的邏輯規則或者某種形式的數理算法對于無意義的抽象符號所進行的計算；而具身主義則強調了身體及其感官系統的重要性，認為它們的特殊體驗造成了認知和情感-價值判斷的差異。

對此的一個佐證是對一些基于誤判而出現的機器人事故的解讀。各國都曾出現過機器人因將人體誤判為作業對象而使其致殘或致死的事故。這是“回形針假設”的現實版。究其原因，機器只根據預先的算法設計行事，而不是根據傳感裝置獲得的對象的特殊信息進行判斷。后者正是智能認知具身化的要求。事實上，早在1986年，布魯克斯已經從控制論角度出發，強調智能是具身化和情境化的，他認為傳統以信息表征為核心的經典AI進化路徑是錯誤的，而要消除表征的局限性，就要制造基于行為獲取信息的機器人。蘇黎世大學人工智能實驗室前主任羅爾夫·普菲弗與加拿大佛蒙特大學的喬希·邦加德則在合著的《身體的智能：智能科學新視角》一書中進一步提出，智能行為可以通過加強智能體的“身體”與外部環境交互的方式實現新的學習反饋機制，從而形成更能應對世界復雜性的智能。而在業界方面，英偉達創始人黃仁勛就曾在2023年表示，具身智能是能理解、推理，并與物理世界互動的智能系統，是人工智能的下一個浪潮。

從根本上而言，具身智能就是讓人工智能獲得“身體”——它不是指形式上的身體，而是具備感性經驗獲得能力的身體。正如人類的認知是基于對感官所獲得的信息進行加工的過程一樣，具身智能的發展思路是試圖幫助人工智能從對情境的實時交互中形成符號理解的過程，它是將認知置于環境中，形成連續的進化響應的過程。簡單地講，具身人工智能將不再像傳統人工智能那樣對相關條件和行為進行對應反應，而是和人類理解世界的方式類似，通過傳感設備獲得的第一手環境信息（聲音、影像、觸覺、溫度甚至表情等），建立起實時、動態的完整符號模型。其認知和理解不再是“離線”式的，而是滿足時間壓力的持續交互狀態。這種心智仿真結構所形成的智能體將是一個與情境不可分離的開放網絡。

這和現有的認知型智能體的發展路徑完全相悖。無論是OpenAI的GPT和Sora，還是谷歌的Gemini、Gemma，即便是所謂的多模態大模型，也主要基于對去語境化的信息建構起來的符號系統的處理。該路徑的理論根據在于，歐美中心主義認為數字信息比與具體語境相關的模擬信息更重要。雖然人類對于人工智能的價值/道德/期待在很大程度上是“因為我們習慣于將倫理與類人的外觀和類人的通過語音的交互聯系在一起，而所有這些實際都應該歸功于良好的設計和熟練的編程”。這種信息實體論不但改變了人們對現實的看法，而且在人工智能技術的發展上更重視人類已有經驗文本——文字、影像、圖表等，而忽視了具身智能的交互性發展。生成式人工智能和大模型技術所依賴的數據集來源的結構性問題正是這一智能發展方向無法克服的一個弊端。即便是已有的多模態大模型擴大了來源文本的類型，但依舊沒有使問題變得好轉，因為不同的文本生產技術的發展水平在世界范圍內并不均衡，同時也會產生不同的意義模式，當其被去語境化為普遍符號的時候，就已經改變了其被生產出來時與真實生活的距離。有事實表明，部分數據在訓練一段時間后可能已經破壞了大模型的表征，并且，大模型的技術邏輯會導致數據離散度變小，從而產生認知中心化乃至模型崩潰的結果。它也是其發展的頑疾之一，它有可能導致價值極化的出現。

一些國際機構已經發布了政策，試圖明確人工智能系統在設計時應遵守的倫理原則。例如，歐盟已經確定了關于使用人工智能的四項道德原則：無惡意、尊重自主權、算法公平和透明性。美國白宮科學技術辦公室提出的原則略有不同，其中特別強調了人類有選擇不與人工智能互動的權利，這一點其實是對自主權內涵的進一步擴大，也是對人類個體的獨特性和自治性的保護，即人類有權決定不受人工智能的影響而采取符合自己判斷的自主行動。從這個意義上來講，通過施加對人工智能的價值對齊進而將設計的倫理原則施加于人類社會的做法，本身就是價值殖民的一種改版。這一結論并不夸張。從技術實踐的層面來看，能夠有效地在現有大模型中推進價值嵌入和價值對齊的，通常都是在技術、數據和算力上占據優勢的大型科技公司，OpenAI、谷歌的DeepMind之前都建立了專注于解決價值對齊問題的團隊（然而，前者剛剛宣布對其予以解散，后者的成效還需要進一步驗證）。考慮已開發的人工智能的應用廣度和深度，技術決定論似乎又一次在價值領域以一種奇異的姿態發揮了作用，它使得頭部從業者不但可以主導市場，甚至可以主導人類社會。現實有可能變成：誰掌握了最先進/應用最廣的人工智能，誰就擁有了實現價值對齊的權力，誰也就擁有了界定人類價值和人類普遍利益的權力。從而，結果有可能是，人工智能技術的掌握者不但以特定的價值實現了對AI的“對齊”，而且更以后者的無所不在、以技術無意識的方式實現對人類群體的普遍性對齊。這種價值觀的擴展方式是歷史上任何政治文化方案都無法實現的。

OpenAI超級對齊團隊的解散為價值對齊問題的解決提供了另外一種思路：與其著眼于現有大模型的價值對齊，既需要面對價值本身的復雜性及其與人工智能性能的張力問題，還需要面對下游風險加劇的問題，不如專注于AI更多的可能性與開放式人機生態體系的打造，通過有效的人機交互與環境感知，鼓勵開發與人類處于更廣泛的目的分享和責任分擔的人工智能。吳冠軍在分析Midjourney的風險防控時，也談到：“過濾”的非持續有效性，可以通過互動機制改善識別——“在互動過程中，我們需要探尋可能存在的突破點或‘短路’機制，識別用于切入并可能導致系統無法完全過濾此類信息的入口。這揭示了世界的復雜性和趣味性。”于2023年9月成立的法國生成式人工智能委員會在2024年3月向政府提交的新時期法國人工智能發展建議報告中特別提到，開放性是人工智能發展的基礎。報告指出必須從技術開發和市場開放兩方面預防所可能導致的集中化風險，支持多元主體之間的競爭。無論是應對人類社會的復雜性，還是防范由技術所導致的任何形式壟斷，開放性都是極為核心的一個維度。這就如同拉圖爾所強調的行動者穿梭于其間的“網絡”概念，而人工智能也正是這些行動者之一。

結語

在技術的原初設定中，價值對齊作為一種人工智能治理方法，彰顯的是技術設計者企圖通過人類價值嵌入機器體系的方式獲得更加可靠的人工智能產品的信心。然而，在面對技術-社會的復雜互動關系時，價值對齊卻無法真正有效付諸實踐。一方面，潛藏于價值對齊背后的人類中心主義的控制幻想假設了一種以人類現有道德水平和認知為基準的整體性解決方案，堅信人類所形成的價值體系和原則足以為人工智能技術的發展植入更好的目標和原則。這無疑是一種人類在面對人工智能時的“造物主式”的傲慢。另一方面，圍繞著價值觀差異所引發的沖突、斗爭等長久地存在于人類社會發展始終，歷史性和多元性構成了價值觀本身的特質。那么，在面對人工智能的治理問題時，人類何以能夠空前地達成一種價值觀念上的統一并將其附加于人工智能之中？如若不能，一種更加危險的趨勢或許正醞釀于價值對齊的設計之中：人工智能技術的掌握者是否會以特定的價值實現對AI的“對齊”，進而誘使無所不在的人工智能產品以技術無意識的方式實現對人類群體的普遍性對齊？

因此，人工智能的價值對齊問題從本質上來說，既涉及對智能應用過程中出現的問題和風險的評估，也涉及對所謂“人類價值原則”及其規范可能的理解。后者至今仍然停留在爭議之中，而前者則是整個社會的智能化轉型所面對的挑戰。今天，簡單化的人機關系理解模式已經無法理解泛在的人工智能對人類社會的整體性重塑，在現有實踐和未來趨勢中，人機協作智能是進一步回答“人類如何面對人工智能時代到來”問題的基礎性認識。人類智能和人工智能具有不同的特點和優勢，這也就意味著人機協作和融合在不同的程度和場景中可以有個性化的應用。與單純強調人工智能的超越性相比，協作智能的類型和開放性具有更廣闊的前景和潛力。重新連通效率與公平、性能與價值、情境性與普遍性、全球性與地方性，這也是后人類知識圖譜生成的方式之一。

參考文獻

[1][加]威廉·萊斯.自然的控制[M].岳長齡，譯.重慶:重慶出版社，）1996:6.

[2][法]布魯諾·拉圖爾.我們從未現代過：對稱性人類學論集[M].劉鵬，安涅思，譯.上海:上海文藝出版社，）2022.

[3][德]烏爾里希·貝克.風險社會——新的現代性之路[M].張文杰，何博聞，譯.上海:譯林出版社，2021:23.

[4][美]朱迪斯·巴特勒.身體之重：論“性別”的話語界限[M].李軍鵬，譯.上海:上海三聯書店，2011:10.

[5]賈開，）趙靜.技術嵌入、價值傾向與算法分類治理[J].經濟社會體制比較，）2023（4）:101-111.

[6]劉永謀.技術治理通論[M].北京:北京大學出版社，2023:579.

[7]郭全中，）張金熠.AI向善：AI大模型價值觀對齊的內容與實踐[J].新聞愛好者，）2023（11）:19-24.

[8][印]阿卡普拉沃·包米克.機器意識[M].王兆天，李曄卓，譯.北京:機械工業出版社，2023.

[9]Ratoff William. Can the predictive processing model of the mind ameliorate the value-alignmen tproblem? [J]. Ethics and information technology，）2021，）23 （4）: 739-50.

[10][美]尼爾·波斯曼.技術壟斷:文化向技術投降[M].何道寬，譯.北京:中信出版集團，2019:121.

[11][德]彼德·斯洛特戴克.資本的內部[M].北京:社會科學文獻出版社，）2014:275.

[12][美]亨利·基辛格，）埃里克·施密特，）丹尼爾·胡滕洛赫爾.人工智能時代與人類未來[M].胡利平，風君，譯.北京:中信出版集團，2023:117.

[13]James Gips. Towards the ethical robot[M]∥Android epistemology. Cambridge，） MA:MIT Press，） 1994:284.

[14]吳冠軍.從Midjourney到Sora：生成式AI與美學革命[J].閱江學刊，）2024（3）:85-92.

【本文原載于《華中科技大學學報（社會科學版）》2024年第5期，澎湃新聞經授權轉載】

責任編輯：龔思量

圖片編輯：張穎

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#價值對齊 #控制論 #具身認知 #人機協作智能