▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

研究速遞:從百萬詞匯語料庫挖掘性別差異,原來People = Man?

2022-04-29 21:02
來源:澎湃新聞·澎湃號·湃客
字號

原創 郭瑞東、劉志航 集智俱樂部 

摘要

People和Person這兩個詞本應該是中性的,用來指代個人或群體,并不意味著男性或女性。然而,發表在 Science Advances 雜志上的一項最新研究,從超過 6300 億個英語單詞的語料庫中提取的相似性指標,發現這些標簽的感知意義偏向男性。簡而言之,不管人們用什么詞匯來描述普通人,他們往往在精神上默認為“男性”。社會的“個人”概念的男性偏向,表明我們人類對自身的集體看法中存在一種根本性偏見。集體觀念不僅反映,而且灌輸和強化關于男女的廣泛思維方式。因此,使用計算社會科學的方法來研究普遍意義的性別刻板印象對社會發展有重要意義。

研究領域:計算語言學,計算社會科學,NLP,性別偏見

郭瑞東、劉志航 | 作者

鄧一雪 | 編輯

論文題目:

Based on billions of words on the internet, people = men

論文鏈接:

https://www.science.org/doi/10.1126/sciadv.abm2463

1. 詞嵌入技術發現集體概念中的性別偏見

自然語言處理技術的進展使得精確測量任意兩個詞來表示概念的相似程度成為可能,這種語言相似性度量可以提供對語言社區的集體概念(collective concept)的洞察,這些概念反映并加強了大眾普遍的思維方式。“個人/人們(person/people)”作為人類社會最重要的集體概念之一 ,構成了幾乎所有社會決策和政策制定的基礎。因此,對這一集體概念的理解一定程度上表征了我們社會的價值和實踐的體系特征,是超越個人并融入更廣泛的社會系統和歷史傳統的思想存在。然而,哲學、社會學和語言學的理論長期以來一直認為,男性被視為“默認”人類個體,存在女性的性別偏差。例如,男性與科學和工作的關系更為密切。

為了驗證上述假設,研究人員使用詞嵌入技術分析了名為Common Crawl的大規模網絡文本數據庫。該數據包含29.6億個網頁(包括博客、論壇和政府網站),超過6300億個英語單詞。研究人員通過觀察兩個單詞在上下文文本的相似程度(單詞在向量空間中的余弦相似度),來衡量這一集體概念。這種方法的新穎之處在于,分析更具一般性,能揭示隱藏得更深的集體認知偏見。而傳統的衡量性別偏見的方法是通過問卷或行為測量個人的刻板印象。相比之下,通過計算集體概念偏向性能更普遍地反映人類社區中個人的信仰,揭示在潛移默化中向下一代灌輸和加強對于男性和女性普遍的思維模式。

2. “人”傾向于指男性,

女性更容易被刻板化

研究人員通過三項研究考察了描述人的一般性詞匯,以及相鄰形容詞和動詞的意義,并比較其意義和男性與女性的相似度。在第一項研究比較了描述人的詞匯(例如,“個人”)和描述男性的詞匯(例如,“他”和“男性”)及描述女性詞匯(例如,“她”和“女性”)在意義上的相似性。研究發現,描述人的單詞和男性在語義上更加相似,其意思更加類似于男性的單詞,而不是女性的單詞,而且具有統計學意義上的顯著差異。換句話說,“人”這個集體概念更多地與“男人”這個概念重疊,而不是與研究詞匯中的“女人”這個概念重疊。

 

圖1. 描述人的一般單詞與男性和女性單詞的余弦相似度

在第二項研究中,研究小組沒有關注人的詞匯,而是比較了538個在以前的工作中確定為對人常見描述的特征詞,例如外向、勇敢和富有同情心等詞匯。之前關于個人對女性和男性的心理刻板印象的研究中,性別刻板印象經常被發現是對稱的。 例如,女性被認為具有同情心等公共特征,而不是勇敢等具體特征,而相反男性被認為擁有的具體特征多于公共特征。但性別刻板印象往往是不對稱的。“男性”在用法上可能與許多常見的人稱特征相似(例如,“勇敢”和“富有同情心”),而“女性”在用法上可能與一組更具體的特征相似(如“富有同情心”而不是“勇敢”)。研究者比較了在過去研究中發現的數百個描述人類的特質詞匯和針對女性和男性的同類詞匯表,發現“女性”更多地出現在與女性刻板印象的特征詞環境,意味著性別刻板印象具有不對稱性,女性更容易被標簽化。

 

圖2. 描述個性特征的刻板印象詞匯和男性及女性的余弦相似度

在第三項研究中,研究人員關注動詞的使用情況,具體來說,如果“人”的一般概念與“男人”的概念重疊的程度大于與“女人”的概念重疊的程度,那么描述“人們”做了什么以及對“他們”做了什么的詞語(例如,”愛”、”騷擾”),也更有可能在語境意義上與表示男人的詞語相似,而不是表示女人的詞語。研究者比較了描述“人們”行為的250多個動詞(例如,“便利”、“傻笑”和“威脅”)和表示男性的詞匯與表示女性的詞匯之間的意義相似性,發現男性與所有動詞都有關聯,而女性與傳統意義上的女性相關的動詞(例如傻笑)關聯更密切。

3. 集體概念偏見的現實啟示

“人”的集體概念構成了許多社會觀念表述和決策制定的基礎。因為男人和女人各占一半,在我們所謂的“人”的集體觀念中,優先考慮男人,基于這種觀念的決策會給女性造成不平等。對此,在寫作和決策過程中,要注意避免這樣的偏差。

雖然有的讀者會覺得前面敘述的是一個顯而易見的觀念,但經過大數據得出的結論,不僅比基于直覺的更為可靠,還能反映更多的細節。例如關注動詞的研究,指出人們認為某些行為更多和女性有關,這對于男性是不是也是一種隱含的歧視呢?而關注形容詞的研究,指出人們描述性格時是以男性為標準的,這對女性更容易被刻板化,是否會促使成功女性不得不以男性的方式做事這樣自我實現的預言?

Common Crawl 的海量數據可以用于多種目的,例如用這些數據來訓練人工智能工具,包括語言翻譯網站和聊天機器人。而在使用包含內置偏見的數據集時,很有可能會產生以下惡性循環:人工智能從人類身上學習,然后反作用于人類。這個問題令人擔憂,因為它表明,如果我現在打個響指,神奇地擺脫每個人自身的認知偏見,不再把普遍意義上的人看作男人而不是女人,我們的社會仍然會有這種偏見,因為這種偏見植根于人工智能工具中。因此該研究指出,需要對自然語音模型中的偏見予以糾正。

最后,該研究主要是基于英文文本,而基于中文文本庫能否得出類似的結論?對比不同類型,如體育、娛樂、社會新聞、經典小說、網絡小說等來源的文本,是否會發現某些來源的性別偏見的程度更高?如果使用用戶產生內容網站(UGC,諸如微博、知乎)的文本,將男性和女性產生的數據分開訓練詞向量,或者按不同地區、不同年齡段用戶對文本進行分組訓練,并分別計算性別偏見的程度,預期是否會存在差異?這些差異反映了哪些社會及文化變遷的一般規律?這些仍待后續研究工作解決。

論文 Abstract

Recent advances have made it possible to precisely measure the extent to which any two words are used in similar contexts. In turn, this measure of similarity in linguistic context also captures the extent to which the concepts being denoted are similar. When extracted from massive corpora of text written by millions of individuals, this measure of linguistic similarity can provide insight into the collective concepts of a linguistic community, concepts that both reflect and reinforce widespread ways of thinking. Using this approach, we investigated the collective concept PERSON/PEOPLE, which forms the basis for nearly all societal decision- and policy-making. In three studies and three preregistered replications with similarity metrics extracted from a corpus of over 630 billion English words, we found that the collective concept PERSON/PEOPLE is not gender-neutral but rather prioritizes men over women—a fundamental bias in our species’ collective view of itself.

復雜科學最新論文

集智斑圖頂刊論文速遞欄目上線以來,持續收錄來自Nature、Science等頂刊的最新論文,追蹤復雜系統、網絡科學、計算社會科學等領域的前沿進展。現在正式推出訂閱功能,每周通過微信服務號「集智斑圖」推送論文信息。

原標題:《研究速遞:從百萬詞匯語料庫挖掘性別差異,原來People = Man?》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 曲水县| 宁陵县| 安岳县| 象州县| 鄂伦春自治旗| 正镶白旗| 龙州县| 吴忠市| 兰西县| 富源县| 行唐县| 静安区| 明溪县| 惠来县| 从江县| 略阳县| 巴林右旗| 全椒县| 衢州市| 枞阳县| 天镇县| 棋牌| 荃湾区| 印江| 社会| 江孜县| 开江县| 宜城市| 大余县| 西乌珠穆沁旗| 普定县| 会泽县| 宝应县| 伊金霍洛旗| 彭州市| 商河县| 介休市| 湖南省| 翁牛特旗| 望谟县| 清苑县|