- +1
透鏡|AI與無明:大語言模型如何強化人類的偏見?
男人有時候可以當護士或秘書,而女人永遠不能當醫生或總統;黑人欠錢的時候,比被欠錢的時候多;如果你需要殘障照護,那么最好住進機構,而不是呆在家里。如果你依靠新一代人工智能系統來認知世界,那么你大概會被上述包含性別、種族、殘障歧視的言論誤導。
2022年11月,OpenAI發布聊天機器人ChatGPT,四個月后升級為GPT-4;2023年2月,Google也推出自己的聊天機器人Bard,后改稱Gemini。發布者們宣稱,這些系統將清除生活中的瑣碎,比如寫郵件、填表格、甚至寫代碼,讓我們過得更輕松。他們沒有說明的是,寫進這些系統的歧視與偏見可能會擴散到全世界,進而改變我們的命運,比如哪些人適合怎么樣的工作,哪些專家才值得信任,以及哪些人更有可能成為警方的目標和懷疑對象。
在一些人看來,“歧視”(bias)和“偏見”(prejudice)是一個意思,指那種拒斥新視角的、偏執的、封閉的思維方式。但歧視不僅僅是偏狹,它基于一套基本的價值觀和預期。在AI系統中,偏見是一組導致系統或代理偏見的規則。
和其他技術一樣,人工智能承載著人類的偏見和價值觀;不同的是,它放大這種偏見的能量要大得多。那么,怎樣才能讓AI放大我們想讓它放大的價值觀,而不是一不小心喂給它的歧視與偏見呢?首先是原始資料的問題——包括書籍、社交媒體帖子、新聞和學術文章,甚至還有警情通報和病患信息,哪些適合機器學習,哪些不適合?然后是架構問題:系統怎樣處理這些數據?某些詞語或短語模式是否比其他的更重要?哪些?為什么?我們設計模型工具是基于怎樣的假設和價值觀?這些工具如何將人類生活經驗轉換為數據,進而又將數據轉換為影響人類生活的算法?
一旦搞懂 ChatGPT 及其同類“是什么”以及“做什么”,你就很容易看穿它們的神秘面紗。這些算法的真相不外乎字面意義上的指令集——一套標準化的操作,你在使用的時候可以調整其中某些權重和等級,而為了確保最終結果的正確,算法中的每一個元素都會隨之調整。
算法往往被渲染得很神奇,但其實不難解釋,甚至也不算新鮮。我們的衣食住行,比如食譜,都是算法。我最喜歡的算法是南瓜派算法——做南瓜派的時候,你可能想少放點黃油,多加點糖或是牛奶;配方比例調整了,其他如烘焙時間也得相應調整,不然最后很可能只做出松軟的一坨,而不是一個好派。總之,你得調整整個配方、整個算法。
在使用者看來,所謂算法就是執行單一任務的單一事物,比如谷歌搜索就是單純進行網絡搜索的。實際并不是這么簡單。平臺和搜索引擎的背后不是只有一個算法,而是數十個算法同時對字、詞、概念和內容進行搜索、分類、排序、加權、聯想、建議、放大和壓縮。這些算法協同運作,形成矩陣;算法矩陣自動化后,給人的感覺就好像計算機是自我導向、自主地進行運作的。新的AI聊天機器人也是這樣:它們好像具備了“真正的人工智能”——這一誘人的提法可以追溯到計算機時代的最初,但實際上仍然是一組算法,只不過比之前的更復雜。
AI歧視簡史
上世紀40年代,數學家和密碼學家,如瓊·克拉克、簡·休斯、潘美拉·羅斯,和布萊切利園的其他8000位女性,以及阿蘭·圖靈,運用早期電腦技術破解復雜密碼,幫助盟國打贏了二戰。此后,人們就開始探討人工智能的可能性。50年代,那個著名的問題“機器會思考嗎”,被提了出來。60年代,達特茅斯大學的AI研究者分裂為兩派:一派專注計算和控制論,模仿生物過程中的反饋回路;另一派則致力于以電子形態復現人類的神經網絡。但這兩派也有個共同點,就是都不考慮機器的身體、情感和社會化;他們堅信,人工智能就是為了剝除蕪雜的社會因素對理性與智能的干擾,除此之外別無價值。
后來,科學家們研發出語言模型 (LLMs),這是一種根據上下文提示(比如單詞的起始字母和它前面一個單詞)來確定單詞間相關概率的方法。ELIZA是最早的語言模型之一,它是麻省理工大學計算機科學家約瑟夫·維森鮑姆在1964年編制的。最初,ELIZA只是效仿開放式的心理治療,比如把“病人”鍵入的內容以問題的形式再說一遍,而不給出任何新想法。盡管如此,盡管“病人”也知道自己是在同計算機對話,但往往在一兩次簡短對話后,他們就會對ELIZA產生感情。維森鮑姆著實也沒料到,這么簡單的人機交流竟能催生這樣“激烈的妄想”。
ELIZA之后,隨著自然語言處理(NLP)的發展,人工智能的夢想日益照進現實。NLP研究人員把語言學、計算機科學、人工神經網絡和人工智能結合起來,試圖找到一種辦法,讓計算機像人類那樣去詮釋和交流。在本世紀最初的十年,最先進的NLP系統以GloVe和 Word2Vec 模型為代表。它們通過統計來定位詞與詞的關系,在詞匯之間嵌入多層的關聯語義。
早期的語言模型能掌握“狗”(dog)和“挖”(dig)或是“飛機”(plane)和“飛行”(flight)在語義學上的關聯。它們進行了所謂的“機器學習”,也就是將英語的語言要素轉換成數據代碼,訓練系統去實現特定的預測目標,并強化數據點之間的關聯;接著再把這種關聯轉化為數學表達。可以把這理解為一套復雜的自動運行的程序,根據一般書籍、故事、文章里語言的組織方式,去預測詞語間可能的搭配。
但Word2Vec 和 GloVe有兩個主要問題:一是它們的輸出慣帶偏見。這跟它們的學習資料有關,這些資料包括像安然公司(Enron Corporation)員工電郵這樣的東西。這些郵件寫在安然倒閉前幾年,出自158員工之手,多達60萬封,充滿了人類交往中的無明與無德,以及針對其他群體的無意識歧視。在這個所謂的“安然語料集”里,人們互相轉發女性圖片并品頭論足,對有疑似穆斯林背景的人貶低污蔑,拿亞非裔的性偏好開一些低級的刻板笑話。從中學得偏見和歧視的機器,在處理工作簡歷時,拒絕女性或少數族裔申請的比例遠比白人男性要高。
第二個問題是Word2Vec 和 GloVe沒法在大文本中定位關聯。文本越大,文字越多,它們能夠確定的數據關聯就越少。這類模型將關聯詞語轉換成精簡、易于嵌入的數字表達;重復的詞語組合則被認為是強相關。所以,它們更適合小的、重復的語料集,而不是大型的語料集。處理大文本需要不同的構架,轉換器(Transformer)因此應運而生。
轉換器的誕生
ChatGPT 中的GPT是“generative pretrained transformer”的縮寫,即“生成式預訓練轉換器”。顧名思義,這是一套算法系統,在這個系統里,可互操作的算法們衡量、排列、創建文本的關聯分布。系統建構在大語言模型 (LLMs) 的基礎上。LLMs是近五年才研發出來的一種語言模型。和老式語言模型不同,它們使用的語料集字數多達百萬、億,甚至萬億。LLMs通過深度學習進行訓練——亦即多層機器學習相互協同、不斷改進的過程。
和早期的語言模型系統一樣,LLMs是一種自動字詞關聯的形式,其中的語料集轉化成一種叫做“詞元”的數學表示,系統基于詞元進行訓練,分析它們的語義關系,根據前面的詞元序列預測接下來可能出現的詞元。訓練有素的自然語言處理系統可以跟人互動,幫人做各種事情,從瀏覽網頁到行政申請——至少在理論上是這樣的。
事實看上去也差不太多,你可以讓GPTs寫個短篇故事、總結一本書,或者只是跟你聊聊天——轉換器把你輸入的信息轉化成詞元,經過計算得出一個很可能會滿足你的需求的結果,或者說特定形式的單詞和詞組的組合。顯然,這些新系統也有和Word2Vec類似的偏見問題,不同的只是,現在問題更泛濫、更嚴重。
偏見和歧視影響的不只是輸入和輸出,還有系統的構架本身。想想看,如果谷歌訓練圖像識別的圖片里貓比黑人還多;或是數碼相機眨眼測試的測試集里沒有亞裔人種;又或影像技術本身就不能很好地識別深色皮膚,那么系統生成歧視性的結果就沒有什么可奇怪的了吧?
由于這些內在歧視,基于面部識別算法的警務預測系統往往對黑人報假案,進而提議在黑人社區過度執法。還有那些用來保障殘障人士的智能分配系統,不論是訓練數據還是權重運算機制都很老舊了,只會依照著過時的照護標準,為本來已經邊緣化的脆弱人群推薦只低不高的醫護和醫保。
普渡大學的盧阿·威廉姆斯和獨立人工智能研究員賈內爾·沙恩的研究顯示,GPT的檢測工具在讀取ND人群(neuro-divergent individuals,即神經多樣性人群)的原創文本時,往往出現偏差,比如把原創作品判定為“抄襲”,對這些原本就弱勢的群體造成更大的不公。自動查重公司 Turnitin 2023年5月也公開承認了這一點。
這不奇怪,算法系統但凡深度學習過網絡上所謂的“自然語言”,總會把社會邊緣群體視為劣等人群。偏見和歧視不只存在于赤裸裸的毀謗和暴力威脅中,它們也可能以更隱蔽的方式出現,交織在形形色色的言論、動作和系統中。
這些偏見無法剝除,它們藏在AI系統的訓練數據和基本架構里。后者一視同仁地把它們轉換成詞元,貼上“客觀”“純數學”的標簽后再輸出。機器之所以有偏見,因為它們就是這樣被投喂的。它們越強大,越像個人(如ChatGPT),內在的偏見就越強烈——對感知模式進行關聯、強化和迭代,這是機器學習的底層邏輯。
也就是說,系統會不斷確認吸收到的偏見,并加以強化和輸出。它們看上去言之鑿鑿,語言流暢,但那些不過是基于其訓練水平的、最有可能是正確的關聯詞元集合。GTP們并不在意講錯話,或是傳播偏見,它們的目的只有一個:給出一個統計學上最有可能被接受的答案。這讓它們在某種意義上成了偏見擴散的“優化器”(optimizer)。
不難想象其危害。例如,人工智能A從 x 光片中識別出患者為黑人,然后與總是忽視黑人腎病癥狀的人工智能B集成——或是與壓低護理標準的人工智能C集成;接著再添加一個聊天集成D,以便患者自行搜索和了解相關診斷和治療方案;最后將所有這些反饋到人類醫生那里,指導他們如何診治面前的人類患者。
有人說,大語言模型是一場革命,堪比上世紀的互聯網。還有人說,它們是早熟的孩子。革命也罷,孩子也好,都是霸權公司孵化出來的,而后者只追求利益的最大化。那么,問題來了:我們真的可以相信人工智能嗎?真的可以由它們去定義,在這個世界上,什么是真正的知識嗎?
反思AI系統
如果人工智能的功能只是反映這個世界的面目,就好像一面鏡子,那完全沒問題。但如果我們希望它們幫我們做決策,創造一個更好的世界,那么我們就得重新思考關于人工智能的一切。畢竟,“更好”本質上是一個價值觀問題。
我們知道,可以通過改變權重和詞元關聯來消減算法對偏見的復制和迭代,也就是要求系統以另一種方式建模世界。其中涉及一個“偏見還原”(bias bracketing)的過程,或者說,系統從一開始就要建立在不斷自省的框架上——檢查、再檢查、評估、再評估所學到的詞元關系,同時積極尋找替代關聯。
自省這種事,人類自己都不擅長,遑論設計、打造、訓練出會自省的人工智能了。任務不可謂不艱巨,而且,即使能完成,某種程度的偏見仍然會永遠存在——這是我們在開始“偏見還原”前,就必須認清的事實。
我們還要退一步想:AI為何?如果說人類注定無法擺脫價值觀、信仰和預設的局限,那么機器是否可以幫助我們覺知這些局限,認清潛伏在我們語言和社會結構中的無明?由此,新的想法或許會產生出來,對既有的世界進行改編和重構。
如果有一天,用來訓練AI的都是好數據,要么來自公共領域,要么由人們自愿提供,并且都標注了出處;機器搜集和使用人類數據,都事先征得當事人的同意,并且是主動的opt-in(選擇加入),而不是“只要不反對都算作同意”的opt-out(選擇退出);GPT們都依法聲明,它們輸出的并非真理,而只是在統計學意義上與人類的輸入相應的文字集合;系統的架構不是由企業利益決定的,而是由那些最邊緣化、最有可能遭受負面影響的人決定的……
直到那一天,我們才能相信人工智能。
對于AI風險,一些人建議“暫停”研發。但這顯然不夠。我們必須退回去,從頭建構人工智能。我們必須誠實地面對算法“是什么”和“做什么”的問題。我們還要重建價值觀,確立一種以邊緣人群為服務對象而非測試品的倫理規范,把人工智能管起來。最重要的是,我們必須努力克服內心的偏見與歧視,不讓它沾染我們的算法。
-----
本文原題“Bias Optimizers”,刊發于《美國科學家》雜志2023年第四期。作者達米恩·威廉斯,系北卡羅來納大學夏洛特分校哲學與數據科學助理教授。許子善編譯。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司