- +1
當縣域寶媽成為數據標注師
美國印第安納大學人類學家瑪麗·L.格雷(Mary L. Gray)曾在《幽靈工作》一書中說:“人工智能并不像大多數人希望的或害怕的那樣聰明,它對世界的淵博知識必須靠人類補充。”
在過去的十年間,中國的人工智能產業正在以驚人的速度發展。據中國信通院測算,2022年我國人工智能核心產業規模達5080億元,同比增長18%。大數據和智能技術的發展帶來了海量的數據清理、整合、篩選的需求,“人工智能的最后一英里”,需要人類“搭把手”。
于是,這樣的人工智能外溢吸引了大量的就業人口涌入,衍生了“數據標注師”一職。這群隱身于數據背后的人,逐漸在媒體報道中被看見。他們被描述成對文本、圖像、視頻等數據內容進行梳理、標注、標識,以方便投喂算法、促進技術智能的新工種。
數據標注的工作,最先由軟件工程師、程序員等自行承擔,但是伴隨著數據清理需求的增大,他們應接不暇。人工智能技術末端的“數字零工”人群,就此誕生。在我們的調研中,數據標注人群中有一群特殊的女性,她們來自農村縣城,有自己的小家庭,不懂技術卻樂于學習,不諳智能卻變成了人工智能的老師。成為數據標注師,是一個雙向選擇的結果——既是她們看中了這份職業的自由靈活,也是她們所特有的品質與這份職業相契合。

2023年2月16日,陜西省榆林市清澗縣,工作人員在進行數據標注。視覺中國 資料圖
一、人工智能領域:縣域寶媽入場
我們在調研中發現,縣域寶媽成為數據標注師是一種雙向選擇,一方面,人工智能技術與行業發展的需要帶來對數據標注師需求的上升,數據標注師崗位需要勞動力資源的注入;另一方面,在縣域生活的寶媽們希望能夠通過一些簡便、靈活、可以兼顧家庭的勞動貼補家用,寶媽需要這樣一份貼近、自由、可創收的工作,因而對數據標注的崗位也很珍惜。
數據標注產業的高速發展和線上工作對產能的促進推動了需求的上升。根據AI訓練師認證中心發布,近幾年數據標注行業迅速發展,全國已有近200萬名從業者。2020年,人社部將數據標注師納入國家職業分類目錄。2021年,數據標注行業市場規模達到43.3億元,同比增長約19.2%。課題小組走訪了北京、陜西清澗、山西永和、貴州銅仁等地的數據標注產業基地,以此窺探縣域女性作為數據標注師的職業入場。
同其他的線上零工一樣,數據標注師的工作地點和時間相對靈活,這給了縣域寶媽更多入場的機會。廖姐來自廣東佛山,育有兩個孩子,她談數據標注工作時講到了母職與工作的結合:“如果到晚上要哄孩子睡覺,我就一邊哄著小孩,一邊拿電腦工作,很方便。有時候我趕時間工作,也會一邊吃飯一邊標注,就在飯桌那里解決。我這工作的好處就是在哪里都可以,沒有固定的地點。”
迫于疫情下的經濟壓力,一些寶媽努力接入社會,在傳統行業就業機會緊縮的情況下,她們通過抖音短視頻、微信公眾號、招聘網站、熟人推薦這樣的方式連接到全職數據標注這份工作。
起初,縣域寶媽對于什么是“AI”并不清楚,卻十分明確地知道,自己是“AI的老師”。在陜西省榆林市清澗縣的一家數據標記公司招聘中,負責人用貼電線桿小廣告等傳統方式并沒有激起招聘的水花,反而是有一天,一名公司員工說自己做數據標注師月薪過萬的新聞在縣里傳開,一下子迎來了近300位縣域寶媽應聘。
二、獨有的職業感知
在寶媽們看來,成為一個好的數據標注師,除了最基本的電腦鼠標操作能力,需要兩大特質:較好的理解能力,以及細心,這也正是她們的優勢所在。
數據標注的工作既復雜也不復雜,考驗的是細心與耐心程度。標注師們通常需要識別文本、語音中的特定話語,拉框、勾勒出圖片、視頻中的特定物品,接著打上標簽。比如,在同義詞訓練中,數據標注師需要理解兩段文本的含義,判斷這兩段語義是不是一樣的并標注“是”或者“否”;在人工智能電話催款項目中,數據標注師需要根據業務方的分類要求,分辨出一段語音中的時間、欠款金額、還款日、還款狀態、還款意圖等信息,一一打上標簽,幫助機器學習分辨這些基礎信息。這些位于AI技術發展末端的基礎性碎片化工作,對于學歷和專業素養沒有硬性要求,但卻十分考驗她們在分辨、識別與標注時的理解能力與細心負責。
賀女士今年32歲,從2021年2月開始數據標注工作,電子商務大專畢業的她此前一直做婚紗照拍攝的網絡銷售,早年輾轉陜西省咸陽、西安和榆林等多地,主要負責開辟和接待外地客戶,直到2020年疫情全面暴發,拍攝生意做不下去了,她回到家鄉陜西清澗,通過朋友介紹開始數據標注工作,“當時我主要考慮到兩點,一是工作地點,就在老家當地,二是工作待遇,在縣城是很不錯的”。賀女士在培訓、練習一月后便上崗,主要進行地圖標注。
這個工作挺需要你細心和負責的,你做的這個工作是跟每個人都是相關的,每個人都會用到導航,你把這個路標注了,可能是這個路可以走,但是你給到的標注是這個路沒有辦法走了,封閉了,就可能會讓這個人繞到其他路上,讓他費了很多時間這種,你一旦做錯了,可能用導航的這個人他就走錯了。
在M公司,一個數據任務包,包含大約600-1000條標注任務,完成需要8小時,標注準確率需要在95%及以上,經過訓練的數據標注師,準確率通常可達97%-98%。這樣的高準確率,需要從業者進行長期反復練習。與此同時,縣域寶媽們認為,能夠在標注工作過程中與同事相互請教、與技術指導上級或是業務方質檢人員多次溝通,這在數據標注中也是非常重要的品質。
數據標注師的晉升,一般沿著“標注—質檢—審核”這樣一條路徑展開。已經升級成為質檢小助手的郝姐,今年35歲,她從2020年的夏天開始接觸數據標注,此前做過商業大樓的管理工作,在金融部門也待過。在郝姐看來,數據標注工作看著神秘與高大上,實際上也與以前的編草、做竹籃等手工物件制作差不多。
你都是上廠子里邊去拿原材料,拿了以后我來加工,加工完了我送回去,送回去以后驗收合格了你給我錢,在線下我是用手去做,只不過現在升級化了,在線上我是在電腦上領活,在電腦上加工,我提交了,客戶驗收成功了以后給我錢,其實是一樣的。
當我們問及寶媽的職業規劃,大多數人想繼續做數據標記。在工作崗位吃緊的縣城,能有這樣一條產業鏈的后端入駐,并能有一個月三五千的收入,多數寶媽已十分滿意。母職的牽絆和相對較高的收入,成為她們的職業認同所在。在成為數據標注師之前,寶媽們大多在家中接一些手工零工,或是在家中依靠丈夫、幫助父母做事,許多寶媽都談到了成為全職家庭主婦后與社會之間的脫節感,以及由于經濟不獨立而在家中逐漸縮小的話語權。她們也希望可以獲得經濟收入,能夠自由從容地生活。
三、鄉土求生的工作困境
在實際情況中,縣域寶媽成為數據標注師,也伴隨著一種身份上的脆弱。許多寶媽標注師們雖然取得了一定的收入,在家庭中獲得了比以往更高的地位,但家庭責任的優先性仍然在束縛著她們的時間與空間。從職業屬性而言,數據標注公司以勞動密集型的模式出現,又以外包業務為主,加上職業門檻低有隨時會被替代的風險存在,因此也被外界稱為“互聯網版富士康”。數據標注師一方面是人工智能的老師,另一方面也被稱為“工作的掘墓人”。當終極算法出現之時,大量的數據投喂不再被需要,她們將變得無處可去。
縣域寶媽是經歷豐富、生動的一群人,此前跌宕的工作經歷和成為母親后孩子與家庭對她們的需要,使得擁有一份工作對于她們而言同時具備經濟和社會雙重意義屬性。縣域當地的數據標注基地所提供的這樣一份正規雇傭的數字勞動,正是我們去理解她們的核心。這份工作對她們來說,夾雜了經濟、道德、心理和社會層面的依戀。
不過,自動化標注平臺的研發和某些領域的數據標注工作,在人工智能迭代的發展下也在趨于飽和,末端的數據標注任務也逐漸為機器所替代,在我們的調研中,也有許多縣域寶媽提到,從去年開年以來就明顯感覺到了任務量的減少。
(作者孫萍為中國社會科學院新聞與傳播研究所副研究員,李云帆、楊怡為中國社科院大學研究生,卓不凡為云南師范大學研究生)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司