- +1
AI社會學(xué)|傲慢與偏見:奧巴馬怎么“變白”了?
許多年之后,當(dāng)我們追溯AI社會學(xué)的編年史,2020年深度學(xué)習(xí)大牛、Facebook 首席 AI 科學(xué)家楊樂昆(Yann LeCun)和 Google AI科學(xué)家蒂妮特·葛卜路(Timnit Gebru)在推特上進(jìn)行的“算法偏見大辯論”也許仍然是值得記錄的一筆。盡管這場沸反盈天的爭論在持續(xù)兩周之后,以楊樂昆宣布永遠(yuǎn)退出推特暫時畫上了休止符,計算機(jī)學(xué)家和社會學(xué)家在算法里的分歧卻遠(yuǎn)遠(yuǎn)沒有得到解決。
這場爭論的起點是一個名為PULSE的算法,由杜克大學(xué)的科學(xué)家們在計算機(jī)視覺頂級會議CVPR 2020上發(fā)表。PULSE的精髓在于其利用生成對抗網(wǎng)絡(luò)(GAN)的思路,將模糊的照片瞬間清晰化的能力。但很快,網(wǎng)友就發(fā)現(xiàn),PULSE在黑人群體的表現(xiàn)差強人意。比如,將前總統(tǒng)奧巴馬的模糊照片經(jīng)過PULSE處理,生成的清晰圖片竟然是一張白人面孔。

圖片來源:Twitter網(wǎng)友chicken3gg
在全美BLM運動(Black Lives Matter,黑人的命也是命)如火如荼的當(dāng)下,PULSE算法引發(fā)了巨大的爭議。面對鋪天蓋地的質(zhì)疑,楊樂昆發(fā)了一條推特,解釋到:“機(jī)器學(xué)習(xí)系統(tǒng)的偏見是由數(shù)據(jù)造成的。PULSE系統(tǒng)使用FlickFaceHQ訓(xùn)練,其大部分是白人圖片。如果系統(tǒng)使用塞內(nèi)加爾的數(shù)據(jù)集訓(xùn)練,那所有人會看起來都像非洲人?!?/p>
從技術(shù)角度來說,楊樂昆指出了算法偏見一個至關(guān)重要的來源,就是訓(xùn)練數(shù)據(jù)集的偏見。但是,意識到數(shù)據(jù)偏見是否就足夠了呢?Google AI 科學(xué)家、同時也是一名非裔女性的蒂妮特·葛卜路在推特上與楊樂昆展開了激烈的辯論。一時間風(fēng)聲鶴唳,計算機(jī)學(xué)家和社會學(xué)家紛紛站隊。蒂妮特直言到:你不能將機(jī)器學(xué)習(xí)系統(tǒng)造成的傷害完全歸結(jié)于數(shù)據(jù)偏見。換而言之,是否只要修正了數(shù)據(jù)偏見,算法偏見(及其造成的傷害)就自動消失了呢?
社會學(xué)家們的答案是否定的。對他們來說,一個至關(guān)重要的區(qū)分是中性的統(tǒng)計上的“偏差” (bias)和對社會群體造成實實在在后果的“偏見” (bias of moral import)。1996年,巴蒂婭·弗里德曼(Batya Friedman)和海倫·尼森鮑姆(Helen Nissenbaum)在互聯(lián)網(wǎng)時代的早期寫下了至今仍然是經(jīng)典的《計算機(jī)系統(tǒng)的偏差》(Bias in Computer Systems)。當(dāng)然,他們當(dāng)年所說的偏見和今天AI系統(tǒng)里人們觀察到的偏見已經(jīng)截然不同。但是,他們提出了一個經(jīng)典定義,區(qū)分開了bias和bias of moral import ——如果前者可以泛指計算系統(tǒng)里的各種自然的“偏差”,那么后者則指的是特定的會對某一社會群體造成的不公正的傷害。今天我們討論算法偏見,更多是后者。
也許一個經(jīng)典的例子是亞馬遜和奈飛 (Netflix) 的算法推薦系統(tǒng),你或許在淘寶和抖音上也能找到類似的系統(tǒng)。這些算法會根據(jù)你之前的瀏覽和評價記錄(或與你用戶畫像類似用戶的瀏覽及評價記錄)向你推薦“或許”感興趣的商品和影片。
統(tǒng)計學(xué)家們發(fā)現(xiàn),類似的算法起碼受制于四大統(tǒng)計偏差的束縛。第一類偏差,是新的商品或影片往往很難被推薦算法選中。因為算法基于用戶評分,新的產(chǎn)品沒有評分所以很難進(jìn)入算法視野。
第二類偏差,是流行的商品或影片往往會被反復(fù)選中。即使你只閱讀中古時期的醫(yī)學(xué)史,也很有可能被推送《哈利波特》——因為在茫茫用戶人海中,總有喜歡《哈利波特》的人碰巧也喜歡中古醫(yī)學(xué)史。
第三類偏差更為復(fù)雜一點,統(tǒng)計學(xué)家們發(fā)現(xiàn),算法有“過于精細(xì)”的特點。如果你碰巧看了三部《倚天屠龍記》,出于對精確性(accuracy)的不懈追求,算法基本就會持之以恒地給你繼續(xù)推薦武俠小說,即使你這個禮拜想探索一下科幻電影。
第四類偏差,是同質(zhì)化。因為算法會自動推薦其他用戶喜歡的產(chǎn)品,評價少的小眾產(chǎn)品會慢慢下沉,整個信息生態(tài)系統(tǒng)會變得越來越類似。比如,引用率高的論文會被反復(fù)引用,影響力增大的同時又會導(dǎo)致更多的引用,形成一個信息閉環(huán)。
社會學(xué)家們很快發(fā)現(xiàn),當(dāng)我們討論統(tǒng)計偏差的時候,常常忽略了貌似正常的偏差在社會群體里造成的傷害。許多看上去完全自然無害的統(tǒng)計偏差可能導(dǎo)致嚴(yán)重的社會后果。在以上的例子里,過于精細(xì)的算法可能會導(dǎo)致個人信息系統(tǒng)的同質(zhì)化,從而導(dǎo)致社會大環(huán)境的割裂:保守派和自由派也許看到的是完全不一樣的世界。
類似的,如果算法的設(shè)計是為了“大部分用戶”服務(wù)的,那些占據(jù)正態(tài)分布尾部的少數(shù)派用戶群體自然會受到不同程度的“算法歧視”。從另一個角度來說,把正態(tài)分布尾部的用戶群體排斥在算法的視野之外同樣也是對“大多數(shù)”用戶的傷害:人類信息系統(tǒng)和自然生態(tài)系統(tǒng)一樣,會受損于多樣性的喪失。
更致命的是,在類似的推薦系統(tǒng),或者更廣義上的現(xiàn)代信息過濾(information filtering)系統(tǒng)里,數(shù)據(jù)和算法是無法分割開的。算法不停地根據(jù)數(shù)以萬計用戶的選擇和評分對自己的預(yù)測系統(tǒng)進(jìn)行實時更新——哪里是數(shù)據(jù)偏見?哪里又是算法偏見?
更進(jìn)一步,我們還可以問,把AI系統(tǒng)造成的社會偏見和傷害歸結(jié)于“數(shù)據(jù)”而非“系統(tǒng)”本身,從某種程度上來說,是否也是在規(guī)避責(zé)任?如果只有數(shù)據(jù)是有偏見的,那么是否只有收集和標(biāo)注數(shù)據(jù)的人才應(yīng)該對這一切社會后果負(fù)責(zé)?把追責(zé)的視野局限在訓(xùn)練數(shù)據(jù)集上,我們其實是放棄了從起始處起對一整個AI系統(tǒng)進(jìn)行問詢的基礎(chǔ):為什么要建造這個系統(tǒng)?誰建造了這個系統(tǒng)?誰會受益于這個系統(tǒng)?誰又會受到最大程度的影響?
當(dāng)代深度學(xué)習(xí)領(lǐng)軍人物楊樂昆在激辯算法偏見兩周之后,徹底退出了推特。在人類社會和算法的交界處,在AI算法爭分奪秒從億萬用戶的行為里提取數(shù)據(jù)進(jìn)行預(yù)測的今天,僅僅從科技的角度來理解和解決問題或許會受到越來越多的挑戰(zhàn)。
普林斯頓社會學(xué)家魯哈·本杰明(Ruha Benjamin)在著名的深度學(xué)習(xí)大會 ICLR 2020上說:
“Computational depth without historical or sociological depth is superficial learning”。
沒有歷史和社會深度的“深度學(xué)習(xí)”只是“淺薄學(xué)習(xí)”。
與所有計算機(jī)學(xué)家和社會學(xué)家們共勉。
【參考文獻(xiàn)】
[1] Batya Friedman and Helen Nissenbaum. "Bias in computer systems." ACM Transactions on Information Systems (TOIS) 14, no. 3 (1996): 330-347.
[2] Ruha Benjamin. “Vision: Reimagining the Default Settings of Technology & Society,” ICLR 2020.
[3] Sachit Menon, Alexandru Damian, Shijia Hu, Nikhil Ravi, Cynthia Rudin. “PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 2437-2445.
[4] Catherine Stinson. "Can an Algorithm be Biased?”. 2020.
-----
作者沈虹,畢業(yè)于美國伊利諾伊大學(xué)香檳分校傳播學(xué)系,現(xiàn)任職于美國卡內(nèi)基梅隆大學(xué)。她用社會學(xué)的方法研究新興科技。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司