- +1
我在賽博流水線工作,月薪三千,身心俱疲

辦公室里幾排電腦閃著熒光,屏幕上劃過相似的街景圖片,文蓬昕和同事們緊盯著屏幕,房間里充斥鼠標點擊的“沙沙”聲。
這是文蓬昕的第一份實習——數據標注。2020年3月,包括“數據標注員”在內的“人工智能訓練師”正式成為國家職業分類目錄中的一個新職業。“無所不知”的AI模型并非憑空獲得知識與智慧,而是有賴于海量數據集的“喂養”,這背后是數以萬計的人力勞動。
文蓬昕今年讀大四,專業是計算機。他原本希望自己能夠在這份與“人工智能”“程序”“算法”相關的崗位上發揮課堂所學專業技能,然而入職后他才發現,他的工作其實是用畫圖軟件描出道路圖片中的車、人行道、馬路,打上不同的標簽。這些標簽將作為“飼料”投入人工智能的訓練。
當世界都在關注人工智能掀起的技術革命浪潮,鮮有人看見黑箱幕后的人工——賽博流水線上的數據標注員。
一份不需要門檻的工作
如何才能成為一名數據標注員?
《人工智能訓練師國家職業技能標準(2021年版)》描述了數據標注員應當具備的能力特征:“具有一定的學習能力、表達能力、計算能力;空間感、色覺正常”,普遍受教育程度則是“初中畢業”。
我們爬取了boss直聘、前程無憂、獵聘招聘平臺,以“數據標注員”“人工智能訓練師”為搜索關鍵詞,從招聘信息中得到了一幅數據標注員的“工作畫像”。

688條招聘信息中,近半數公司對求職者的學歷要求是大專。根據招聘詳情的描述,成為一名數據標注員只需“具備基礎電腦操作技能”。超1/3的公司在招聘啟事中提及,會為新入職的標注員提供培訓。可以說,這是一份幾乎不需要門檻的工作。
“簡單”“易操作”“好上手”是眾多受訪者對數據標注工作的印象。曾經從事數據標注兼職的劉木只用半天就完成了入職培訓,對照公司提供的資料,他很快能熟練將地下車庫中的車輛、車位、緩沖帶、地鎖分門別類框選出來。在他看來,“能用電腦,就能做標注。”
根據不同的標注類型,標注員們在電腦上的操作方式有所區別。視覺類標注主要是用鼠標拉框、描點,自然語言類標注是在軟件上對語句劃分,打上分類標簽;語音標注則要戴上耳機進行語音轉寫。這些電腦操作在簡單培訓后基本都可以迅速上手。
▼具體操作方式見視頻
對于這樣一份對員工自身技能幾乎沒有要求的工作,招聘信息對標注員的要求更多在于員工個人的性格與素質,“工作認真負責”“細致、有耐心”“吃苦耐勞”被提及的頻率位居各公司招聘細則前列。這些對個人素質的要求,與數據標注工作的體驗分不開。
▼數據標注操作示意
“不需要學歷,沒有含金量,也不需要智商。”文濤大專畢業后一直從事數據標注工作,他對自己的定位是“辦公室里的流水線工人”,無聊、乏味與重復構成他每日工作的底色。
知乎、豆瓣關于“數據標注”的169條關聯文本中,“枯燥”是最常出現的關鍵詞:八小時連續坐在電腦前,幾百張圖片里是相似的街景,只有手和鼠標不停地動。操作熟練后,一名數據標注員一天能拉1000-3000個框,都是同樣機械的重復。

事實上,簡單好上手并不能與“輕松”畫上等號。一張人臉圖片上,往往需要準確標出幾十甚至上百個點;普通的街景圖片中,除了車輛與馬路,每一道欄桿,每一條線,路上的行人、電動車,甚至途經的一條小狗都要被分門別類框選出來,打上標簽。一些遠處的物體放大后模糊到只剩幾個像素點,只有精神高度集中才能不出錯。
亦有曾經從事語音標注的網友在社交平臺表示,公司提供的語音素材中有時存在噪音甚至臟話,耳機里充斥著不同方言的辱罵,不斷消耗標注員們的心情。
工作過程中,標注員們需要承受“質量檢測”帶來的壓力與挫敗:未能與物體契合的框線,未被準確分割的語音都會被判定為不合格,打回全盤重做。標注員楊寬就遇到過這樣的情形,整整兩天都用來修改不合格的項目,對于計件收費的標注工作而言,這意味著之前花費的時間和精力“一分錢都拿不到”。
久坐在電腦前,數據標注帶來的職業病同樣令標注員擔憂。與數據標注身體感受相關的文本中,多數標注員都提及長時間盯著屏幕對視力造成的損害:“時間長了直接就是機器人視角,走到哪里都是框框。”
視力下降,頭暈眼花,一連數小時頭戴耳機帶來刺痛,頸椎、脊椎的不適......結束一天的工作,來自開封的數據標注員武曉儀的眼睛里常常布滿紅血絲,每天早晨起床“疼得要命”。三個月實習期過去,與文蓬昕一同進入公司的實習生已經戴上眼鏡。
“工資太低了,不如干客服”
身心體驗之外,數據標注員還面臨著更多現實困境。

巨大的標注任務量往往與績效掛鉤,加班、單休甚至無休成為標注員的工作常態。望不到的職業前景則進一步制約他們在行業深耕的意愿。與一般的勞務派遣不同,數據標注常以項目為單位,收入并不穩定,項目結束后就可能面臨“失業”。文濤認為,數據標注只適合作為過渡性的工作,學不到技能,亦沒有升職空間。如今,他輾轉于不同的數據標注項目,坦言這份工作“就是混日子的人來做做”。
169條關聯文本中,不少標注員表達了對薪資的不滿:工資發放標準模糊,五險一金等補貼缺失。部分公司以“有責底薪”的方式對員工進行約束,標注員們必須在固定時間內完成指定的標注任務量,否則會被扣除部分底薪。
武曉儀所在的標注公司就實行了有責底薪。公司規定員工每個月最少需要標注3000張圖,以她的速度,一天最多只能畫50張,即使“除了吃飯、上廁所,其他時候一刻不停地畫”,依舊會被扣除工資。手腕被鼠標磨得紅腫,堅持二十多天后,她決定辭職。
AI行業走在時代的前沿,賽博流水線上,數據標注員們的薪酬卻并不如“人工智能”的頭銜一般光鮮。根據招聘網站信息,在北上廣深四個一線城市,數據標注崗位的平均最低薪資只有6050元;而在人力成本更為低廉的四、五線城市,如山西臨汾、江西新余,數據標注員的平均最低月薪只有2000多元。

文濤的月薪通常在稅后3000元左右,待遇不好時則只能拿到2500元。對于文濤工作、生活的無錫市,他認為這份薪資還是“太低了”——“不如去干客服”。根據“boss直聘”統計,無錫客服專員平均月薪在4870元至5256元之間。
李安琪從2018年開始做了5年數據標注員,輾轉三家公司。她知道,由自己標注的數據會被用在機器人上,這讓她“很有成就感”。說完,李安琪頓了一下,又說:“但這個工資沒有成就感。”她現在已經離開這個行業,回到山西老家做一名銷售。
數據標識公司本身被視為利益潛力大增的投資標的。據國際數據公司(IDC)預測,到2025年中國數據標注市場規模將突破102億元。面對一片“藍海”,為何數據標注員的薪資待遇依舊有限?
這與數據標注的行業模式有關。目前,數據標注行業的主流模式是外包。由于成本高、管理難度大等原因,科技公司很少完全自建數據標注團隊,而是將訂單交給專門的數據標注公司和團隊來執行。
據觀研天下《中國數據標注市場發展深度調研與投資戰略預測報告(2023-2030年)》整理,第三方數據標注服務商提供了整體數據標注市場79%的服務。以外包為主的項目運營模式,也影響了數據標注企業的規模大小:以中小企業為主,多數只是工作室和幾十人的小團隊。

真正承擔標注任務的中小企業往往經過層層外包才能接到標注任務。從有標注需求的甲方公司到數據標注員,每層外包抽取一定費用后,標注員最終到手的工資就所剩無幾。根據新京報貝殼財經報道,有甲方公司項目負責人透露,一條報價9毛的數據,最后分到標注員手中單價可能只有幾分錢。多位受訪對象表示,標注一個框或者描點的單價在3-4分錢左右。
“教會徒弟,餓死師傅”?
數據標注作為AI基礎數據服務,在整個AI數據服務產業鏈中處于中游,銜接著上游的數據生產和下游算法研發。

現存的大量數據為圖片、視頻、音頻等非結構化數據,無法直接應用于人工智能算法研發。數據標注員作為“人工智能的老師”,將從上游獲取的數據轉換成計算機可識別的結構化數據。而結構化數據是人工智能算法開發的基石,可以讓AI應用模型訓練結果更加準確。
數據標注員通過拉框、標點等方式為人工智能提供學習材料,使其理解人類世界。他們教會自動駕駛的車輛在紅綠燈停下,逐步解放駕駛員;教會醫療設備通過智能影像識別自動讀片,快速進行疾病篩查;教會日常使用的電子設備通過掃描面部自動解鎖,教會AI錄音轉文字復述我們說過的話。

人工智能技術依舊在向前奔馳,數據標注員們教會的人工智能,是否會取代自己原有的工作?
隨著數據標注量增大,純人工標注在成本上不再具有優勢,AI自動標注成為數據標注服務商的新工具。數據采集標注行業發展至今,機器學習已經開發出了可以自己為數據打標簽的模型,從而實現自我標注、自我投喂,這意味著可能將不再需要眾多人工標注員。重慶一家數據標注公司的負責人梁成透露,公司的技術團隊已在開發用于取代基礎人力的程序。
復旦大學數據科學學院副教授陳思明接受采訪時表示,人與機器共同完成的“交互式標注”已經投入使用。在交互式標注場景下,人工只需要將最復雜的部分數據進行標注,剩下的數據則基于機器算法主動學習完成。在人工智能前沿領域,研究者們還在致力研發僅需少量人工標注數據的“小樣本學習”甚至無需人工標注的“零樣本”模型,最終希望實現機器自主標注。
在自然語言處理領域,這可能即將成為一種現實。上海交通大學計算機科學與工程系教授趙海認為,當前自然語言處理對人工數據標注的需求壓力“基本上快要消失了”,大量模型可以在沒有前期標注數據的條件下被成功訓練。除部分專業性很強的領域以外,數據標注員可能不再有存在的意義。
不過,這種擔憂似乎還有些遙遠。陳思明表示,目前而言,人工標注數據在質量上更勝一籌,從而能訓練出更優越的模型,“在工業產業的運用上,其實還是需要依賴(人工標注)”。一家標注公司的負責人木馬也表示,目前在2D標注的情景中,“可供人做的越來越少”,但3D點云標注過程更復雜,人工需求量依然很大。
木馬清楚自己從事這種密集勞動力性質的工作,始終存在被替代的可能性,但他并不感到灰心:“目前一些軟件可以初步篩選部分數據,但我們人工標的更加復雜,替代可能還遠遠不夠。”
他隱約知道自己曾經標注過的數據都去了哪里:它們有可能在無人駕駛的系統里,也有可能在百度app右上角的相機標識背后。如果有一天遇到了不認識的動物或者植物,人工智能識別下的“拍照識圖”功能會告訴他答案——“可能答案不完美或對,但肯定會有用的。”
注:文中文濤、武曉儀、木馬、梁成、劉木為化名。
插畫借助AI繪畫工具Midjourney完成。特別鳴謝標注公司負責人小馬哥、AI繪畫工具Midjourney的支持。
陳詩雨,李一釩,呂晨安,吳萌萌,趙睿佳
指導老師:周葆華,徐笛,崔迪
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司