- +1
AI社會學|算法標注:我是“女仆”,你是什么?
1966年夏天,麻省理工學院計算機系教授、日后無數(shù)“AI之父”之一的馬文·明斯基(Marvin Minsky)在波士頓開啟了一個名為“夏日遠景”(“Summer Vision Project”)的暑期項目。彼時,明斯基未滿四十,雄心勃勃,剛和同事一起創(chuàng)立了日后聲名遠播的麻省理工AI實驗室。明斯基雇了個本科生,問他能否用暑假時間將一臺照相機和計算機連接起來,然后看看能否讓計算機“描述”出照相機里的照片。
多年以后,這個無心插柳的暑期項目被認為是現(xiàn)代計算機視覺 (Computer Vision) 的某個起點。作為當今AI領域里炙手可熱的一個分支,計算機視覺經(jīng)歷了狂飆突進的一個時代,現(xiàn)在它幾乎無處不在——小區(qū)里的攝像頭、麥當勞里的刷臉機、無人車的監(jiān)控系統(tǒng)、醫(yī)院里X光片的讀片設備……在這背后是汗牛充棟的CV項目、算法、圖片及其標注的數(shù)據(jù)集。
標注過的數(shù)據(jù)集對算法的發(fā)展至關重要。現(xiàn)代AI技術的一個重要分支就建立在對標注過的數(shù)據(jù)的學習之上,亦即所謂的“監(jiān)督式學習”(supervised learning)——你必須持之以恒地告訴算法“這個是饅頭,那個是包子”,這樣算法才會對下一個出現(xiàn)的圖像進行定義:這個是包子沒跑了!
計算機視覺里最有名的數(shù)據(jù)集叫做ImageNet,是華人女科學家李飛飛 (Fei-fei Li) 在普林斯頓大學擔任助理教授時發(fā)起的一個研究項目。ImageNet的想法很簡單:從網(wǎng)絡上大量抓取公開圖片,以一個同為普林斯頓研究項目的詞匯分類數(shù)據(jù)庫(WordNet)為基礎,雇傭亞馬遜眾包平臺 (Amazon Mechanic Turk) 上的工人,讓他們以詞庫為依據(jù),人工分類和標注圖片。
起始于1996年,ImageNet以驚人的速度成長為AI界的龐然巨獸:在兩萬多個類別之下,是將近1500萬張各式各樣被標注過的圖片。依據(jù)WordNet里的詞匯分類,來自167 個國家、將近五萬名工人在眾包平臺上參與了數(shù)據(jù)的標注。現(xiàn)在,在ImageNet上打開“蘋果”這個類別,你可以找到蘋果樹,蘋果泥,蘋果蛆,蘋果銹,蘋果酒……和更多的與蘋果有關的圖片。
過去十年,這個巨大的圖像詞典一直是計算機視覺領域的“葵花寶典”,被認為是基準測試的黃金數(shù)據(jù)集。因為里面不僅有海量的“自然”圖片,并且每張圖片都已經(jīng)被“客觀”且“科學”地歸類和標注過了。從2010到2017這七年,每一年,全世界最有名的計算機視覺實驗室都會以這個數(shù)據(jù)集的某一個子集為基礎舉辦大賽,參賽的科學家們用某個標注過的數(shù)據(jù)集訓練算法,找出最佳設計,看看誰能以最高的準確率對新的數(shù)據(jù)集進行分類和檢測。
近十年來,這一切都只是計算機視覺領域里的一個再正常不過的科學競賽。直到2019年的某一天,社會學家凱特·克勞福德(Kate Crawford)和藝術家特雷弗·格倫(Trevor Paglen)一次偶然“僭越”,打開了ImageNet里一個名為“人類” 的數(shù)據(jù)集。他們驚訝地發(fā)現(xiàn)在這個從未用來公開比賽的子數(shù)據(jù)集里,隱藏著各種各樣稀奇古怪的標簽和匪夷所思的分類。比如,一個喝啤酒的男人被標注為“酗酒”;一個穿著比基尼的女人被標注為“蕩婦”;一個吃三明治的男人被標注為“自私”;一個躺在飛機座椅上的孕婦被標注為“勢利者”,一個男孩則被標注為“失敗者”。
克勞福德和格倫決定公開“人類”數(shù)據(jù)集。他們做了一個簡單的互動網(wǎng)頁,叫做ImageNet Roulette ,允許網(wǎng)民們上傳自己的照片,使用ImageNet的數(shù)據(jù)訓練算法,再用算法去標注這些新上傳的照片。網(wǎng)民們很快發(fā)現(xiàn),他們上傳的自拍被打上了各種標簽,不僅缺乏情境和無厘頭,還充滿偏見和歧視。比如克勞福德和格倫的合影,女人克勞福德被打上了“新聞廣播員”的標簽,男人格倫則被標注為“微觀經(jīng)濟學專家”。這種被ImageNet標注過的自拍上傳到Twitter,很快掀起了一場網(wǎng)絡風暴,其中赤裸裸的偏見和歧視迫使ImageNet不得不關閉了這個叫做“人類”的數(shù)據(jù)集。
克勞福德和格倫認為,他們在“人類”數(shù)據(jù)集里看到的不僅僅是標注和歸類過的“自然”圖片,而是一系列的“假設、政治和世界觀”。為什么同性戀者的身體并不與男性身體和女性身體并列,而是被標注為Hermaphrodite (陰陽人) ,與switch hitter (左右開工的擊球手) 歸為同類?為什么在ImageNet的數(shù)據(jù)集里會有一個類別,包含了很多乍看并無聯(lián)系的女性圖片,然后都被標注為 “ball-busters,” 其定義是“摧毀男人自信的苛刻女性”?
“分類是人類行為”,在科技社會學經(jīng)典《分類》(Sorting Things Out)的開篇,杰弗里·鮑克(Geoffrey C. Bowker)和蘇珊·李·斯塔爾(Susan Leigh Star)這樣寫道。我們可以在更早的法國哲學家福柯 (Michel Foucault) 的《知識考古學》那里找到相似的分析脈絡。在這本書里,鮑克和斯塔爾以世衛(wèi)組織的“國際疾病分類”為例,通過細致的人類學梳理,向人們展示了這一國際通用的疾病分類手冊是怎樣在龐雜的機構運作中幾乎每隔十年就修訂一番的,又是如何將一系列“疾病”和“健康”之間模糊不清、相互交纏的界限客觀化和正常化的。這種修訂并不會“趨向共識”,而是處于不斷的變動中。在鮑克和斯塔爾看來,“分類”涉及政治、經(jīng)濟、文化的方方面面,是各方權力明爭暗斗的產(chǎn)物;分類的潛規(guī)則永遠在變,分類的政治沒有終點。
在AI世代,分類的重要性愈發(fā)凸顯,甚至有學者認為現(xiàn)代的AI系統(tǒng)歸根結底都是“分類”系統(tǒng)。算法從數(shù)據(jù)訓練集 (training data) 里學習和總結特色,再運用學到的東西給新的數(shù)據(jù)分類,進行預測。ImageNet的冰山一角下,是更為龐大和復雜的算法分類行為。比如,亞馬遜的招聘算法,從公司過往員工的簡歷里學習并歸納其員工的特色,然后根據(jù)其歸納出的特色對新的應聘者進行分類:誰更像我們過往的成功員工?誰更值得被雇傭?很快,人們就發(fā)現(xiàn),因為亞馬遜過往的員工絕大多數(shù)是男性,所以用這些簡歷訓練出來的算法系統(tǒng)性地將簡歷有帶有“女性”字樣的應聘者排除在外了。
在書的最后,鮑克和斯塔爾寫道:“Classifications should be recognized as the significant site of political and ethical work that they are. They should be reclassified”。對AI社會學家們來說,認識到算法分類是政治和社會行為——而非單純的科技行為——只是茫茫征程的第一步。再進一步,我們要問,如何重新分類?如何重新分類才能使被排斥在外的“女性”程序員們重新回到“可被雇傭”的行列?如何重新分類才能使被剝奪的社會階層重新獲得權利?
在“人類”數(shù)據(jù)集曝光后的某一天,我在課堂上打開了ImageNet Roulette,想給學生們展示所謂的“黃金數(shù)據(jù)集”是怎樣標注人類世界的。我上傳了自己的大頭照,然后悲欣交加地發(fā)現(xiàn)自己——一個中年亞裔女性, 被算法標注成了“女仆” (maid)。
【參考文獻】
[1] Seymour A. Papert, “The Summer Vision Project,” July 1, 1966.
[2] Dave Gershgorn, "The data that transformed AI research—and possibly the world." Quartz. July 26, 2017.
[3] http://www.image-net.org/challenges/LSVRC/
[4] Kate Crawford and Trevor Paglen, "Excavating AI: The politics of images in machine learning training sets." Excavating AI, 2019.
[5] Geoffrey C Bowker and Susan Leigh Star. Sorting things out: Classification and its consequences. MIT press, 2000.
[6] Michel Foucault. The archaeology of knowledge: Translated from the French by AM Sheridan Smith. Pantheon Books, 1972.
[7] Jeffrey Dastin, "Amazon scraps secret AI recruiting tool that showed bias against women." Reuters. October 9, 2018.
-----
作者沈虹,畢業(yè)于美國伊利諾伊大學香檳分校傳播學系,現(xiàn)任職于美國卡內(nèi)基梅隆大學。她用社會學的方法研究新興科技。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司