▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

數據偏見是否可以消除?

楊慶峰(復旦大學教授,科技倫理與社會治理研究中心研究員)
2019-08-28 14:42
來源:《自然辯證法研究》
? 思想市場 >
字號

數據偏見已經成為在大數據和人工智能領域倫理反思的重要難題和關鍵問題。日常對數據偏見形成一種比較明確的觀念: 需要控制并消除偏見。這一觀念也影響到了數據偏見問題的哲學思考中。從認識論的“偏見—認識”框架看,作為錯誤的歧視行為,數據偏見是可以消除的; 從解釋學的“偏見—理解”框架看,作為在先的行動或者理解的前提,數據偏見是無法消除的,甚至是會成為智能體行動和決策的先決條件。嵌入智能系統中的道德觀念是 一種獨特的偏見,無法消除,而且它們構成了智能體倫理行動的前提。

獲得純粹的、中立的知識是人類在追求知識的路徑上一直努力的事情。為了實現這一努力,人們努力克服自身的各種偏見,排除了各種意見和無知的干擾。但是這種努力取得的微弱效果在技術時代不僅沒有保持,反而被新的偏見形式沖擊。大數據、人工智能等技術領域涌現出來的偏見現象已經 成為上述領域倫理反思中的重要難題和關鍵倫理 問題,甚至形成了一種有趣的悖論。牛津大學計算機系主任邁克爾·伍爾德里奇(Michael Wool-dridge)指出,AI技術目前面臨的難題是算法偏見,它是指故意或非故意地將某個計算機程序設計為 可做出有偏見的決定。這意味著偏見會導致嚴重的后果,需要消除和避免; 但是,2018年英國上議院出臺的報告《英國的AI:準備、意愿和能力?》中特別指出,偏見絕不能在不知情的情況下被納入自動化系統。偏見可以在用戶知情的情況下被納入自動化系統中,這意味著偏見是無法避免和消除的。之所以產生這種悖論主要是對偏見的本質揭示不足,本文試圖從解釋學入手來闡述上述悖論并回應數據偏見是否可以消除的問題。

一、解釋學與偏見

在一般哲學中偏見(prejudice)是根據認識論框架加以理解,即基于“偏見—認識”的概念框架做出解釋。《哲學詞典》中的解釋是“任何無需恰當考慮其自明性或者缺乏自明性的信念,無論它是正確的還是不正確的。需要在其意義與作為強烈持有的濫用名義的使用之間做出區別。”1907年波蘭哲學家卡茲米爾·特瓦多夫斯基(Kazimierz Twar- dowski)從認識論的框架中分析了偏見。“首先,每一種偏見都是一種信念,與我們的感情、欲望和希望有關的信念,構成了人類精神的、心理生活的整體。……我們通常把偏見定義為前想象的、未加證實的、錯誤的信念,換句話說,是前想象的、完全未加證實的信念,它感知了沒有關聯的事物之間的關系。”心理學家海爾·阿博特(While Allport)從心理學角度闡述了偏見的含義。他在1954年的《偏見的本質》中為偏見的研究奠定了基石,指出“內隱偏見是一個指向帶偏見的判斷和社會行為的相對無意識和相對自動的特性的術語。”

這一解釋充分顯示了偏見與真理觀念的對比, 偏見缺乏自明性或者其自明性沒有被認真對待。“自明性”與“信念”恰恰是認識論的核心概念。在信念的解釋上,最主要的是認識論的解釋,即信念是一種知識論的態度,是一種特定的心靈狀態。“對于笛卡爾而言,是贊成某些理所當然的或者持 有的積極的心靈狀態;對于休謨而言,是在某些前提沒有出現或者出現的被動的心靈狀態; 而對于賴爾來說,否認了信念是可內省的精神狀態。”這種理解主要是從“認識內容——真理觀念”出發,對偏見賦予了特定的規定性:偏見缺乏自明性論證。這種認識也決定了偏見在整個認識論哲學中是需要被克服的因素。

在現象學——解釋學框架中偏見獲得了新的可能性,即基于“偏見—理解”的概念框架做出的解釋。根據海德格爾的解釋,偏見是理解的先行結構。“在《存在與時間》中,將這個解釋的先行條件作為‘理解的先行結構’來進行分析。”在伽達默爾哲學中,偏見與傳統和權威一起構成了理解背后的三位一體,而且成為了最重要的因素。他極力凸顯偏見的先行特征。“所有的判斷以前判斷為條件。這是伽達默爾想引起我們關注的古老的、前現代的偏見含義,盡管偏見的相似理解是無反思的判斷或者倉促推理,導致了頑固的純粹主體意見或者無反思的、機械模仿他人的被動智慧。這里要強調的是判斷不是借助抽象的、中立的理性,而是借助一組前反思的、位于判斷之后的與世界有關的集合,并使得判斷成為可能。”相比海德格爾的形式規定,伽達默爾賦予偏見一種明確的規定性:歷史地形成的視野。“成見是歷史地形成的有效地平。我們總是被拋入一定的地平,從而在這一地平上理解所有事物。”所以,在“偏見—理解”的框架中,偏見被賦予了三個明確的規定性:(1)它的在先性,偏見是作為理解之在先的條件存在的;(2)它的根基性,是使理解成為可能的前提;(3)它的非對象性,偏見是我們自身之狀況,而并非是作為對象存在。

在實踐哲學中理解偏見是根據后果范疇進行的,即基于“偏見—行動”的概念框架來做出解釋。這種框架所考慮的問題是偏見在行動中所起到的后果。特瓦多夫斯基指出了偏見會影響人們的行為。“被我們或者他人看成偏見的東西很平常,但 是非常清楚地是它們明顯影響了人類的行為。”偏見的討論逐漸觸及一個獨特的問題域:“善—惡” 概念。偏見逐漸表現為特定的惡,如歧視。具有負面價值的偏見概念不可避免地與“惡”或者“未加考察地濫用”聯系在一起。也正是因為此,就出現了對偏見的克服或者抑制。而人們更多的是強調一種善的偏見,比如道德代碼或者觀念。國內學者田海平提出一個先行的倫理原則“算法遵循善法”。所以,這種框架給予偏見的規定性是:偏見自身有價值區分,而這會影響行動的結果。

總體上看,上述三種框架對偏見做出了不同的規定性:認識論框架中,偏見是需要被克服的、缺乏自明性論證的因素; 在解釋學框架中,偏見是無法被克服的、是理解和解釋得以可能的先驗條件; 在后果論框架中,偏見自身具有價值特性,是影響行動結果的決定因素。但是這一概念是否適用于數據科學或者人工智能領域中的偏見理解? 我們還需要從數據倫理一端考察,才能更好地理解數據偏見這一問題。

二、數據倫理學中的偏見表達

如今,關于大數據、人工智能中偏見的討論逐漸形成了一種獨特觀念:偏見等同于歧視(discrimi-nation)。2018年英國議會的人工智能報告充分顯示了這一點; 英國學者塔迪歐(Mariarosaria Taddeo)和弗洛里迪最先提出了數據科學帶來的倫理問題。圍繞這一問題,他們(2016)建立了一個三元數據倫理框架:數據本身、算法以及相應的實踐過程。在他們看來,數據本身包含了眾多因素,如“數據的生產、典藏、處理、傳播、分享和使用。”算法包括“人工智能、智能體、機器學習和機器人。”實踐過程包括“負責任的創新、編程、黑客行為和專業代碼。”這三者被放置在概念空間中,由“數據科學引發的倫理挑戰可被描繪為數據倫理學、算法倫理學和實踐倫理學三個軸。…… 雖然是截然不同的研究脈絡,但很明顯的是,它們是彼此交織在一起的,這就是為什么以三個軸來界定一個概念空間是更為可取的,在一個概念空間中,倫理問題好像是以三種值來區分的點。”應該說,他們建立的框架具有宏觀性特點,有著比較大的拓展空間,當然也有局限的地方。比如他們的過程并沒有完全按照數據處理過程來劃分。在數據科學中,數據處理過程通常被劃分為“從數據獲取、數據分級、數據分析、應用分析過程和可視化等階段。”數據獲取的方式可以通過智能傳感器,也可以通過人工的app調查工具。可視化是大數據處理的最后一個環節。本文主要從數據倫理學的總體框架出發來分析偏見的表達以及完善的可能性。

首先是數據偏見,即與數據相關過程有關的偏見。在這個環節中,數據偏見很容易表現出來,如根據某種利益、目的所進行的數據采集。另外在神經科學等領域,要對特定的數據進行標注,然后加以激活或者抑制。這些數據被標注出來的根據是由研究問題所決定的,而這顯然成為標注數據背后的偏見之一。但是我們依然可以根據他們的框架確立起一個觀點:數據偏見可以在不同的環節中表達出來,只是不同環節表現出不同的情況。采集階段的偏見會不同于編碼階段的偏見,采集過程的偏見更多受制于人類自身的偏見,如提供給機器學習怎樣的數據、設計怎樣的采集對象;而在編碼階段的偏見多是與編碼技術有著極大關系。嚴格說來, “數據偏見”需要做出界定:它需要針對不同數據而言的。筆者曾經在《數據共享與隱私保護——一種技術方案的哲學論證》中提出了兩種數據觀念:作為內容的數據和作為對象的數據。如果從兩種數據觀念出發,數據偏見與作為內容的數據無關,而只與作為對象的數據有關。

其次是算法偏見,即算法階段表現出的偏見。目前算法偏見被看成是人工智能領域中“關鍵的倫理問題”或者“關鍵性道德問題”。MIT Technology Review在 2017年刊發了多篇與算法偏見有關的文章,如“帶偏見的算法到處都是,但是好像沒有人關心它”、“檢查算法偏見”等。DeepMind尤其重 視算法中的偏見問題。哈佛大學的拉坦納亞·斯維尼(Latanya Sweeney)也非常重視數據安全、隱私以及機器學習算法偏見等問題。她談到了一類與種族主義 有關的偏見。她的研究表明帶有黑人身份的名字至少有25%的可能性與逮捕相關的廣告聯系在一起。“在更多廣告推送的網站上,黑人身份的名字得到一個有關逮捕記錄搜索的可能性超過25%。”微軟研究員滬巴哈·納巴(Shubha Nabar)認為,我們需要重視人工智能的倫理問題,并建立公平負責的算法,拒絕傳播現實世界數據中常常存在的偏見。凱特·克勞福德(Kate Crawford)認為偏見是機器學習中數學化的特殊定義,即指在評估或者當分樣本時高于或者低于被表征群體的錯誤。較少討論的是以完全不同機器學習名義出現的偏見可能產生對不同的群體產生影響。忽視后者會產生真正的危險。她分析了算 法偏見導致的傷害類型包括配置式傷害(allocative harm)與表征式傷害(representational harm)。配置式傷害是指當一個系統分配或者阻止一個特定的機會或者資源,比如銀行AI經常拒絕給女性抵押、黑人罪犯要比白人罪犯更危險;表征式傷害是指當系統沿著同一的路線加強了一些群體的附屬關系時產生的傷害,比如谷歌照片把黑人標記為暴徒、亞洲人笑的時候會眨眼睛。

最后是實踐偏見,即和實踐過程有關的偏見。在諸如負責任創新、編程以及專業代碼等環節上, 偏見主要表現為主體的偏見。如負責任創新的主體、黑客、程序員以及代碼寫作者。實踐偏見與人有著直接的聯系,主要是來自人自身。

從上述三個框架看,數據倫理學所確立的數據偏見更容易在“偏見—行動”的概念框架中加以理解,這些有偏見(歧視)的因素會對算法、程序的結果產生較大的影響。

三、人工智能中的偏見問題

在筆者看來,人工智能領域的偏見問題具有幾個明顯特征:

(1)雖然數據與算法是人工智能的兩個重要支柱,但人工智能領域中的偏見不能完全還原為算法偏見和數據偏見,還需要考慮智能體這一維度。如果說算法、數據被當作人工智能的重要基礎,那么這一領域的偏見問題基本上可以還原為算法偏見和數據偏見。但是這種還原會遮蔽一個重要的維度:強人工智能主體。我們這里這類主體簡稱為智能體。從偏見的主體看,智能體成為道德偏見主體的可能性并不是等于零。目前很多學者正在探討人工智能是不是一個能動體(agents),可以設想隨著這一問題的破解,那么它們是否會具有偏見的問題就迎刃而解了。

(2)人工智能領域的偏見得到探討的前提是基于偏見可以被消除或者被控制。一些企業積極探討這方面的問題。如谷歌公司指出DeepMind已經有辦法阻止AI的偏見;IBM找到特定的方法消除AI偏見。IBM的研究員丹尼斯·魏(Dennis Wei)指出,“在這篇文章中,我們引進了一種新奇的為減少歧視的數據前處理的可能性構想,其實現三個目標:控制歧視、限制個體數據樣本中的扭曲和保留實用性。”德米斯·哈薩碧絲(Demis Hassabis)嘗試提出研發不區分性別、種族和其他敏感特性的AI。這一觀念的產生與人們對于偏見的普遍看法以及應用倫理學的原則有關。“大多數哲學的、政治的和法律的關于歧視的 討論是基于這樣一個前提:歧視在道德上是錯誤的, 而且就廣泛事件來說,應該在法律上被禁止。”就偏見而言,也是如此。“在應用倫理學領域的研究者 可能較少關心原則上有罪的問題,而更多關心調查如 何改變和控制我們的隱含偏見。”

(3)人工智能領域中的偏見依然糾纏在工具論與價值論的長期爭論中。2002年以來技術哲學界較多地討論到技術工具論與價值論的問題。工具論觀點認為,技術是中立的,偏見是人類自身賦予的結果。這一觀點將偏見看作是人類因素驅動或者嵌入的結果,認為數據偏見是強調偏見是屬人因 素驅動的結果。如法國學者塞巴斯蒂安·科涅奇內(Sebastien Konieczny)指出,系統再現人類偏見的原因是系統由大量人類言語的數據驅動的。還有一 種觀點認為數據偏見是人類自身偏見嵌入的結果。強調人自身的偏見被嵌入程序設計、程序算法中的結果,這種嵌入是不可避免地、必然的過程。在這種觀點中數據被看作是信息資源,而只有特定的算法對數據進行計算的時候才會出現特定的偏見結果。而算法的偏見如上面所分析的那樣,又與設計者的偏見密不可分。所以我們就可以理解在英國 人的報告中提到的偏見納入自動系統的條件是“讓他人知情”。這條原則與嵌入構成了一種平衡。

與工具論的觀點相對,形成了價值論的觀點。這一觀點認為,技術自身負載特有的價值,這一價值并不是人類完全賦予的結果。如此,數據技術偏見與人無關,是數據技術邏輯發展的內在本性。DeepMind倫理與社會部分在其主頁上提到技術的價值特性。“技術不是價值中立的,技術學者必須 為他們工作的倫理和社會影響負責。”在這種理解中,偏見問題與公平問題緊密聯系在一起。“需要什么路徑來充分理解AI系統和數據中的偏見?在AI設計中用什么策略來抵消或者最小化這些效應?”如克斯·奧·尼爾(Cathy O Neil)指出,數據偏見是歷史數據本身不可避免地產物。因為時代、地域和文化等限制,數據帶有非常明顯的偏見特性,而AI等在進行學習訓練的時候,恰恰是依據這些有偏見的數據,自然其分析的結果帶有了很明顯的偏見。利用歷史數據進行訓練的算法程序可能會延續甚至加劇基于種族或性別的歧視。

四、結論

可以看到,日常“數據偏見是否可以消除?”這一問題的提出是傳統倫理反思邏輯的必然結果,尤其是根基于后果論的“偏見—行動”框架。傳統倫理反思必然會從倫理的角度出發去消除偏見。也正是在此必然結果之上,我們也就容易理解當基于倫理視域來反思大數據的偏見時,會出現兩個結果:(1)數據偏見被看成為與算法和歷史數據有關的歧視行為; (2)數據偏見被看成是可以控制或者改變的因素。但是這種理解容易遮蔽偏見可消除的認識論根基。在認識論中,必須排除意見和破除偏見,獲得自明性知識。“大多數關于隱含偏見的哲學著作都集中在兩個不同(但是相關)的問題上。第一個,能動體(agents)在道德上是否要為他們的隱含偏見負責? 第二個,能動體能否改變他們的偏見或者控制這種關于他們外顯判斷和行為的態度的影響?”

但是僅僅是基于這種理解的話,會無法理解為什么英國在人工智能報告中提到的“偏見絕不能在不知情的情況下被納入自動化系統”的觀點。因為這一觀點推演出的結果是偏見是不可消除的。“一個人不可能真正消除被給予的偏見,但是必須剝奪他們產生的根基。他們的根基主要是無知和缺乏批判的心靈。”特瓦多夫斯基“偏見不可真正消除”這一觀點存在不足:既然偏見的根基是無知和缺乏批判,那么當獲得知識以及形成批判心靈以后,這種偏見是可以消除的。所以,對于偏見不可消除的理解需要從先驗層次進行,將偏見看作是在先的、作為理解和行動前提存在的。

如此,回到最初的問題——數據偏見是可以消除的嗎? ——現可以做出有效的回答了:從后果論的“偏見—行動”框架看,數據偏見是可以消除的。這種消除是通過善的因素或者善法加以引導和控 制的加以消除的。從認識論的“偏見—認識”的框 架看,數據偏見是可以消除的:(1)如果偏見是未加檢驗的信念,那么數據偏見的消除是經過理性檢驗或者機器自身的經驗檢驗來加以消除的。(2)如果偏見是一種道德歧視,那么數據偏見的消除是通過確立一種理性的態度、客觀的和公正的態度加以消除。(3)如果偏見是一種應用倫理學關心的因素, 那么應該從倫理或法律意義上消除。

但是從解釋學的“偏見—理解”的框架看,數據偏見又是不可消除的。如果偏見是先驗的存在,作為在先的行動或者理解的前提,那么數據偏見是無法消除的,甚至是會成為智能體感知行動和決策的先決條件。所以可以消除的偏見僅僅是道德意義上的歧視、不公正的信念,從公正的角度出發,這類偏見是必須 要加以消除的。但是,正如我們看到的,尚存在著無法消除的偏見,如嵌入智能系統中的價值觀念,這些以倫理代碼形式出現的偏見無法消除,因為恰恰是它們,構成了智能體倫理行為的前提。

轉載自《自然辯證法研究》2019.(08)109-113,注釋從略。

    責任編輯:韓少華
    澎湃新聞報料:021-962866
    澎湃新聞,未經授權不得轉載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 兴业县| 漳州市| 翼城县| 武山县| 潮州市| 洛川县| 兴义市| 东乡族自治县| 黎平县| 孟州市| 霍城县| 平邑县| 池州市| 石狮市| 达尔| 芷江| 获嘉县| 天长市| 隆回县| 普兰县| 平南县| 嘉定区| 武穴市| 虹口区| 河北省| 英吉沙县| 丽水市| 廊坊市| 洛宁县| 古浪县| 乐至县| 革吉县| 新沂市| 靖州| 潍坊市| 房产| 瓮安县| 高碑店市| 什邡市| 铜陵市| 察雅县|