- +1
我在賽博流水線工作,月薪三千,身心俱疲

辦公室里幾排電腦閃著熒光,屏幕上劃過相似的街景圖片,文蓬昕和同事們緊盯著屏幕,房間里充斥鼠標(biāo)點擊的“沙沙”聲。
這是文蓬昕的第一份實習(xí)——數(shù)據(jù)標(biāo)注。2020年3月,包括“數(shù)據(jù)標(biāo)注員”在內(nèi)的“人工智能訓(xùn)練師”正式成為國家職業(yè)分類目錄中的一個新職業(yè)。“無所不知”的AI模型并非憑空獲得知識與智慧,而是有賴于海量數(shù)據(jù)集的“喂養(yǎng)”,這背后是數(shù)以萬計的人力勞動。
文蓬昕今年讀大四,專業(yè)是計算機。他原本希望自己能夠在這份與“人工智能”“程序”“算法”相關(guān)的崗位上發(fā)揮課堂所學(xué)專業(yè)技能,然而入職后他才發(fā)現(xiàn),他的工作其實是用畫圖軟件描出道路圖片中的車、人行道、馬路,打上不同的標(biāo)簽。這些標(biāo)簽將作為“飼料”投入人工智能的訓(xùn)練。
當(dāng)世界都在關(guān)注人工智能掀起的技術(shù)革命浪潮,鮮有人看見黑箱幕后的人工——賽博流水線上的數(shù)據(jù)標(biāo)注員。
一份不需要門檻的工作
如何才能成為一名數(shù)據(jù)標(biāo)注員?
《人工智能訓(xùn)練師國家職業(yè)技能標(biāo)準(zhǔn)(2021年版)》描述了數(shù)據(jù)標(biāo)注員應(yīng)當(dāng)具備的能力特征:“具有一定的學(xué)習(xí)能力、表達能力、計算能力;空間感、色覺正?!?,普遍受教育程度則是“初中畢業(yè)”。
我們爬取了boss直聘、前程無憂、獵聘招聘平臺,以“數(shù)據(jù)標(biāo)注員”“人工智能訓(xùn)練師”為搜索關(guān)鍵詞,從招聘信息中得到了一幅數(shù)據(jù)標(biāo)注員的“工作畫像”。

688條招聘信息中,近半數(shù)公司對求職者的學(xué)歷要求是大專。根據(jù)招聘詳情的描述,成為一名數(shù)據(jù)標(biāo)注員只需“具備基礎(chǔ)電腦操作技能”。超1/3的公司在招聘啟事中提及,會為新入職的標(biāo)注員提供培訓(xùn)。可以說,這是一份幾乎不需要門檻的工作。
“簡單”“易操作”“好上手”是眾多受訪者對數(shù)據(jù)標(biāo)注工作的印象。曾經(jīng)從事數(shù)據(jù)標(biāo)注兼職的劉木只用半天就完成了入職培訓(xùn),對照公司提供的資料,他很快能熟練將地下車庫中的車輛、車位、緩沖帶、地鎖分門別類框選出來。在他看來,“能用電腦,就能做標(biāo)注?!?/p>
根據(jù)不同的標(biāo)注類型,標(biāo)注員們在電腦上的操作方式有所區(qū)別。視覺類標(biāo)注主要是用鼠標(biāo)拉框、描點,自然語言類標(biāo)注是在軟件上對語句劃分,打上分類標(biāo)簽;語音標(biāo)注則要戴上耳機進行語音轉(zhuǎn)寫。這些電腦操作在簡單培訓(xùn)后基本都可以迅速上手。
▼具體操作方式見視頻
對于這樣一份對員工自身技能幾乎沒有要求的工作,招聘信息對標(biāo)注員的要求更多在于員工個人的性格與素質(zhì),“工作認(rèn)真負(fù)責(zé)”“細(xì)致、有耐心”“吃苦耐勞”被提及的頻率位居各公司招聘細(xì)則前列。這些對個人素質(zhì)的要求,與數(shù)據(jù)標(biāo)注工作的體驗分不開。
▼數(shù)據(jù)標(biāo)注操作示意
“不需要學(xué)歷,沒有含金量,也不需要智商?!蔽臐髮.厴I(yè)后一直從事數(shù)據(jù)標(biāo)注工作,他對自己的定位是“辦公室里的流水線工人”,無聊、乏味與重復(fù)構(gòu)成他每日工作的底色。
知乎、豆瓣關(guān)于“數(shù)據(jù)標(biāo)注”的169條關(guān)聯(lián)文本中,“枯燥”是最常出現(xiàn)的關(guān)鍵詞:八小時連續(xù)坐在電腦前,幾百張圖片里是相似的街景,只有手和鼠標(biāo)不停地動。操作熟練后,一名數(shù)據(jù)標(biāo)注員一天能拉1000-3000個框,都是同樣機械的重復(fù)。

事實上,簡單好上手并不能與“輕松”畫上等號。一張人臉圖片上,往往需要準(zhǔn)確標(biāo)出幾十甚至上百個點;普通的街景圖片中,除了車輛與馬路,每一道欄桿,每一條線,路上的行人、電動車,甚至途經(jīng)的一條小狗都要被分門別類框選出來,打上標(biāo)簽。一些遠處的物體放大后模糊到只剩幾個像素點,只有精神高度集中才能不出錯。
亦有曾經(jīng)從事語音標(biāo)注的網(wǎng)友在社交平臺表示,公司提供的語音素材中有時存在噪音甚至臟話,耳機里充斥著不同方言的辱罵,不斷消耗標(biāo)注員們的心情。
工作過程中,標(biāo)注員們需要承受“質(zhì)量檢測”帶來的壓力與挫敗:未能與物體契合的框線,未被準(zhǔn)確分割的語音都會被判定為不合格,打回全盤重做。標(biāo)注員楊寬就遇到過這樣的情形,整整兩天都用來修改不合格的項目,對于計件收費的標(biāo)注工作而言,這意味著之前花費的時間和精力“一分錢都拿不到”。
久坐在電腦前,數(shù)據(jù)標(biāo)注帶來的職業(yè)病同樣令標(biāo)注員擔(dān)憂。與數(shù)據(jù)標(biāo)注身體感受相關(guān)的文本中,多數(shù)標(biāo)注員都提及長時間盯著屏幕對視力造成的損害:“時間長了直接就是機器人視角,走到哪里都是框框。”
視力下降,頭暈眼花,一連數(shù)小時頭戴耳機帶來刺痛,頸椎、脊椎的不適......結(jié)束一天的工作,來自開封的數(shù)據(jù)標(biāo)注員武曉儀的眼睛里常常布滿紅血絲,每天早晨起床“疼得要命”。三個月實習(xí)期過去,與文蓬昕一同進入公司的實習(xí)生已經(jīng)戴上眼鏡。
“工資太低了,不如干客服”
身心體驗之外,數(shù)據(jù)標(biāo)注員還面臨著更多現(xiàn)實困境。

巨大的標(biāo)注任務(wù)量往往與績效掛鉤,加班、單休甚至無休成為標(biāo)注員的工作常態(tài)。望不到的職業(yè)前景則進一步制約他們在行業(yè)深耕的意愿。與一般的勞務(wù)派遣不同,數(shù)據(jù)標(biāo)注常以項目為單位,收入并不穩(wěn)定,項目結(jié)束后就可能面臨“失業(yè)”。文濤認(rèn)為,數(shù)據(jù)標(biāo)注只適合作為過渡性的工作,學(xué)不到技能,亦沒有升職空間。如今,他輾轉(zhuǎn)于不同的數(shù)據(jù)標(biāo)注項目,坦言這份工作“就是混日子的人來做做”。
169條關(guān)聯(lián)文本中,不少標(biāo)注員表達了對薪資的不滿:工資發(fā)放標(biāo)準(zhǔn)模糊,五險一金等補貼缺失。部分公司以“有責(zé)底薪”的方式對員工進行約束,標(biāo)注員們必須在固定時間內(nèi)完成指定的標(biāo)注任務(wù)量,否則會被扣除部分底薪。
武曉儀所在的標(biāo)注公司就實行了有責(zé)底薪。公司規(guī)定員工每個月最少需要標(biāo)注3000張圖,以她的速度,一天最多只能畫50張,即使“除了吃飯、上廁所,其他時候一刻不停地畫”,依舊會被扣除工資。手腕被鼠標(biāo)磨得紅腫,堅持二十多天后,她決定辭職。
AI行業(yè)走在時代的前沿,賽博流水線上,數(shù)據(jù)標(biāo)注員們的薪酬卻并不如“人工智能”的頭銜一般光鮮。根據(jù)招聘網(wǎng)站信息,在北上廣深四個一線城市,數(shù)據(jù)標(biāo)注崗位的平均最低薪資只有6050元;而在人力成本更為低廉的四、五線城市,如山西臨汾、江西新余,數(shù)據(jù)標(biāo)注員的平均最低月薪只有2000多元。

文濤的月薪通常在稅后3000元左右,待遇不好時則只能拿到2500元。對于文濤工作、生活的無錫市,他認(rèn)為這份薪資還是“太低了”——“不如去干客服”。根據(jù)“boss直聘”統(tǒng)計,無錫客服專員平均月薪在4870元至5256元之間。
李安琪從2018年開始做了5年數(shù)據(jù)標(biāo)注員,輾轉(zhuǎn)三家公司。她知道,由自己標(biāo)注的數(shù)據(jù)會被用在機器人上,這讓她“很有成就感”。說完,李安琪頓了一下,又說:“但這個工資沒有成就感。”她現(xiàn)在已經(jīng)離開這個行業(yè),回到山西老家做一名銷售。
數(shù)據(jù)標(biāo)識公司本身被視為利益潛力大增的投資標(biāo)的。據(jù)國際數(shù)據(jù)公司(IDC)預(yù)測,到2025年中國數(shù)據(jù)標(biāo)注市場規(guī)模將突破102億元。面對一片“藍海”,為何數(shù)據(jù)標(biāo)注員的薪資待遇依舊有限?
這與數(shù)據(jù)標(biāo)注的行業(yè)模式有關(guān)。目前,數(shù)據(jù)標(biāo)注行業(yè)的主流模式是外包。由于成本高、管理難度大等原因,科技公司很少完全自建數(shù)據(jù)標(biāo)注團隊,而是將訂單交給專門的數(shù)據(jù)標(biāo)注公司和團隊來執(zhí)行。
據(jù)觀研天下《中國數(shù)據(jù)標(biāo)注市場發(fā)展深度調(diào)研與投資戰(zhàn)略預(yù)測報告(2023-2030年)》整理,第三方數(shù)據(jù)標(biāo)注服務(wù)商提供了整體數(shù)據(jù)標(biāo)注市場79%的服務(wù)。以外包為主的項目運營模式,也影響了數(shù)據(jù)標(biāo)注企業(yè)的規(guī)模大?。阂灾行∑髽I(yè)為主,多數(shù)只是工作室和幾十人的小團隊。

真正承擔(dān)標(biāo)注任務(wù)的中小企業(yè)往往經(jīng)過層層外包才能接到標(biāo)注任務(wù)。從有標(biāo)注需求的甲方公司到數(shù)據(jù)標(biāo)注員,每層外包抽取一定費用后,標(biāo)注員最終到手的工資就所剩無幾。根據(jù)新京報貝殼財經(jīng)報道,有甲方公司項目負(fù)責(zé)人透露,一條報價9毛的數(shù)據(jù),最后分到標(biāo)注員手中單價可能只有幾分錢。多位受訪對象表示,標(biāo)注一個框或者描點的單價在3-4分錢左右。
“教會徒弟,餓死師傅”?
數(shù)據(jù)標(biāo)注作為AI基礎(chǔ)數(shù)據(jù)服務(wù),在整個AI數(shù)據(jù)服務(wù)產(chǎn)業(yè)鏈中處于中游,銜接著上游的數(shù)據(jù)生產(chǎn)和下游算法研發(fā)。

現(xiàn)存的大量數(shù)據(jù)為圖片、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),無法直接應(yīng)用于人工智能算法研發(fā)。數(shù)據(jù)標(biāo)注員作為“人工智能的老師”,將從上游獲取的數(shù)據(jù)轉(zhuǎn)換成計算機可識別的結(jié)構(gòu)化數(shù)據(jù)。而結(jié)構(gòu)化數(shù)據(jù)是人工智能算法開發(fā)的基石,可以讓AI應(yīng)用模型訓(xùn)練結(jié)果更加準(zhǔn)確。
數(shù)據(jù)標(biāo)注員通過拉框、標(biāo)點等方式為人工智能提供學(xué)習(xí)材料,使其理解人類世界。他們教會自動駕駛的車輛在紅綠燈停下,逐步解放駕駛員;教會醫(yī)療設(shè)備通過智能影像識別自動讀片,快速進行疾病篩查;教會日常使用的電子設(shè)備通過掃描面部自動解鎖,教會AI錄音轉(zhuǎn)文字復(fù)述我們說過的話。

人工智能技術(shù)依舊在向前奔馳,數(shù)據(jù)標(biāo)注員們教會的人工智能,是否會取代自己原有的工作?
隨著數(shù)據(jù)標(biāo)注量增大,純?nèi)斯?biāo)注在成本上不再具有優(yōu)勢,AI自動標(biāo)注成為數(shù)據(jù)標(biāo)注服務(wù)商的新工具。數(shù)據(jù)采集標(biāo)注行業(yè)發(fā)展至今,機器學(xué)習(xí)已經(jīng)開發(fā)出了可以自己為數(shù)據(jù)打標(biāo)簽的模型,從而實現(xiàn)自我標(biāo)注、自我投喂,這意味著可能將不再需要眾多人工標(biāo)注員。重慶一家數(shù)據(jù)標(biāo)注公司的負(fù)責(zé)人梁成透露,公司的技術(shù)團隊已在開發(fā)用于取代基礎(chǔ)人力的程序。
復(fù)旦大學(xué)數(shù)據(jù)科學(xué)學(xué)院副教授陳思明接受采訪時表示,人與機器共同完成的“交互式標(biāo)注”已經(jīng)投入使用。在交互式標(biāo)注場景下,人工只需要將最復(fù)雜的部分?jǐn)?shù)據(jù)進行標(biāo)注,剩下的數(shù)據(jù)則基于機器算法主動學(xué)習(xí)完成。在人工智能前沿領(lǐng)域,研究者們還在致力研發(fā)僅需少量人工標(biāo)注數(shù)據(jù)的“小樣本學(xué)習(xí)”甚至無需人工標(biāo)注的“零樣本”模型,最終希望實現(xiàn)機器自主標(biāo)注。
在自然語言處理領(lǐng)域,這可能即將成為一種現(xiàn)實。上海交通大學(xué)計算機科學(xué)與工程系教授趙海認(rèn)為,當(dāng)前自然語言處理對人工數(shù)據(jù)標(biāo)注的需求壓力“基本上快要消失了”,大量模型可以在沒有前期標(biāo)注數(shù)據(jù)的條件下被成功訓(xùn)練。除部分專業(yè)性很強的領(lǐng)域以外,數(shù)據(jù)標(biāo)注員可能不再有存在的意義。
不過,這種擔(dān)憂似乎還有些遙遠。陳思明表示,目前而言,人工標(biāo)注數(shù)據(jù)在質(zhì)量上更勝一籌,從而能訓(xùn)練出更優(yōu)越的模型,“在工業(yè)產(chǎn)業(yè)的運用上,其實還是需要依賴(人工標(biāo)注)”。一家標(biāo)注公司的負(fù)責(zé)人木馬也表示,目前在2D標(biāo)注的情景中,“可供人做的越來越少”,但3D點云標(biāo)注過程更復(fù)雜,人工需求量依然很大。
木馬清楚自己從事這種密集勞動力性質(zhì)的工作,始終存在被替代的可能性,但他并不感到灰心:“目前一些軟件可以初步篩選部分?jǐn)?shù)據(jù),但我們?nèi)斯?biāo)的更加復(fù)雜,替代可能還遠遠不夠。”
他隱約知道自己曾經(jīng)標(biāo)注過的數(shù)據(jù)都去了哪里:它們有可能在無人駕駛的系統(tǒng)里,也有可能在百度app右上角的相機標(biāo)識背后。如果有一天遇到了不認(rèn)識的動物或者植物,人工智能識別下的“拍照識圖”功能會告訴他答案——“可能答案不完美或?qū)Γ隙〞杏玫??!?/p>
注:文中文濤、武曉儀、木馬、梁成、劉木為化名。
插畫借助AI繪畫工具Midjourney完成。特別鳴謝標(biāo)注公司負(fù)責(zé)人小馬哥、AI繪畫工具Midjourney的支持。
陳詩雨,李一釩,呂晨安,吳萌萌,趙睿佳
指導(dǎo)老師:周葆華,徐笛,崔迪
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司