▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

數據標注工:訓練AI,被AI替代

2023-07-18 18:01
來源:澎湃新聞·澎湃號·湃客
字號

原創 馬慧 甲子光年

增長和淘汰同時進行。

作者|馬慧

編輯|栗子

前景和覆滅同時存在,數據標注從業者代延從未如此矛盾。

30歲的內蒙古人代延在今年初創業,組建了一個近30人的線上標注團隊。此前代延曾在數據標注的眾包平臺做了兩年。可以稱為是“熟工”的他,對眼下的局面既期待又緊張。

他從年初就關注到ChatGPT。從AI企業注冊量的粗暴增長上,代延看到了AI的行業爆火與數據標注的創業機會。天眼查數據顯示,僅今年一季度就新增注冊17萬家人工智能相關企業,目前總計已有267萬家。

他想象著自己能跟隨行業共進,公司未來能發展到100人的規模。但眼下的現狀卻難以支撐他的期盼:數據標注的圈子很快被沖破——大量標注需求、標注工人和中間商一同涌入,單價更低了。

就像工程隊接觸不到有建筑需求的甲方,只能從承包方手上接項目一樣,代延接觸的工價因項目層層轉手越壓越低。他拒絕干一天只能拿到30元的標注項目。

與此同時,代延還面臨著標注業沒有職業晉升、沒有合同保障、被拖款也投訴無門的窘迫。他自嘲:“我們就是新時代的數據民工。”

但這并不是問題的全部。更大的問題在于,自動化標注也正在吞噬他們手上僅有的項目。由代延這樣的數據標注員訓練的AI,正在人類監督中自我學習,進行自標注。

自動化標注將極大減少企業成本,也成為數據標注市場上最被看好的方向。

代延不得不為“AI可能完全取代人”做準備。他帶著團隊同時做文本標注類別的教輔標注和3D點云標注項目。一個是文字,一個是圖片視頻。代延做好了一個項目如果被AI顛覆,就立馬帶著團隊轉型去另一個領域的打算。

此外,團隊人數也要精簡。代延劃掉了腦海中想象的百人公司規模。他認為最終或許只會保留20人的熟手團隊。

這些由數據標注員一手訓練的AI,一邊讓他們夢想著賺得更多,同時逼著他們做好被顛覆的打算。

1.標注,讓AI睜眼看世界

為了讓機器像人一樣理解文字、語音、圖片,人類創造了一個機器的學習鏈條:采集物理世界的實物圖像和聲音,對數據進行標注、清洗,將數據轉換為一串串代碼后輸送給機器。

AI學者認為,三歲嬰兒通過眼睛“拍攝”了數億張圖片,反復認識世界。所以只要給機器灌輸足夠多的數據,也能讓機器從學會識字、認句子,最終理解語言背后的深意。

標注圖集ImageNet上有1500萬張圖片,這個數據集幫助無數AI企業獲得在計算機視覺上的突破,比如人臉識別、搜圖看看。

為了搭建ImageNet,全球167個國家的近5萬名數據標注工一起標注了兩年半,他們都來自眾包平臺Mechanical Turk。

標注要求十分簡單,MTurk常見的工作內容就是區分照片的顏色,或者對圖像中出現的動物進行分類,或是用一個個方框框定選定對象,標注其名稱:這是蛋糕、這是汽車、這是一朵云等等。

圖/整數智能

該平臺上的20萬名零工分布在人力成本低廉的非洲和東南亞,甚至形成了特色「數據標注村」。他們標記的數據支撐著科技企業在AI上的探索。

而中國的上百萬名標注員分布在貴州、山西、山東、河南等省份的二三線城市,并逐步向人力成本更低的縣城滲透。他們或是依賴線上眾包平臺,或是加入線下的數據標注公司和標注基地。

標注內容根據場景區分為文本、圖像和語音,對應著幫助機器獲得識字、識圖和聽聲音的功能。

早期的標注項目集中在互聯網企業,主要標注語音和文本。現在則轉向自動駕駛企業標注由激光雷達掃描獲得的3D場景,比如點云標注;或是更垂直的文本和語音標注方向:幫助教育公司的大模型提供教輔類標注數據;或是為醫療機構的大模型提供校對后的醫療數據。

當AI邁入2.0時代,ChatGPT驚艷了投資者、企業家和創業者,大家對AI的期待已經不僅僅是死板地識別文本、語音和圖片的信息了。人們還希望AI能像人一樣真正理解事物之間的聯系,識別微小的區別和動作背后的情緒,主動地分辨和搜集信息。

比如讓自動駕駛汽車區分前方是一個空扁的塑料袋,而不是一塊顏色體積相近的石頭;讓游泳池旁的攝像頭不再只是記錄泳池旁發生了什么,而是理解發生了什么,在有人溺水時發出警報。

這些依然需要依賴數據標注,并且對標注提出更高的要求——更垂直、更精確、更節約。

標注市場的熱潮也由此開始。

2.“訂單多到做不過來”

很難有數據直接說明新的標注需求激增,但這并不難判斷。因為僅2023年一季度,中國就新增了17萬家人工智能企業,而只要是用到AI的公司,就勢必有數據標注的需求。

需求很快傳導至數據標注市場。在數據標注從業者聚集的貼吧內,一天能刷新出十幾條項目招人的帖子,包括且不限于文本標注、錄題審核、無人機售賣視頻標注、2D檢測桿、3D點云等從文本到圖片視頻的標注項目。

一位從業多年的數據標注工作者察覺到,今年的無人車標注項目有所增加,而由AI2.0熱催生的垂直領域大模型創業,讓原本沒落的文本標注項目細分至不同賽道,也增加了小眾的數據標注的需求。

在需求的推動下,成立新團隊淘金的不止代延。山東東營的張唯在去年底也開始投身數據標注創業,半年發展為一個十幾人的小團隊。依靠當地政府的補貼和扶持,張唯的公司不僅獲得免費的辦公室,政府還幫忙拉通甲方資源。

項目訂單不少,從最初十幾萬的項目到最近的40萬訂單,緊迫的交付任務讓張唯更積極地尋找標注工:前幾天,張唯僅一天就添置了6臺電腦。

在河南鄭州,一家做數據標注的眾包平臺正遷移至能容納百人的兩層辦公樓。它們在門口招牌、辦公室里都寫上公司的定位:“AI人工智能大數據研發基地”“重復的數據清洗,是為了你的AI更智能”。

“標注項目訂單多到做不過來。”其負責人說。

一家數據標注公司的喬遷儀式現場
圖片來源/受訪對象提供

熱錢也久違地進入了標注公司的口袋。數據標注龍頭海天瑞聲,在今年的3~5月股價最高漲了4倍。

根據36氪消息,今年以來B輪及以前的十余家數據標注平臺,集體迎來了接近100%增幅的高估值。從去年下半年開始,自動標注公司陸續獲得新融資。

2022年9月,博登智能獲得千萬元融資;12月,星塵數據完成A輪融資5000萬元,相距上一次2018年6月獲得融資已經時隔4年半。

2023年4月,數據標注解決方案公司「愷望數據」獲得新一輪戰略融資;6月,AI數據公司「整數智能」獲得數千萬Pre A輪融資。

他們斗志昂揚地打出替代人工標注的口號:“重構數據標簽生產”“自動化產線+規模化人力”“打破自動駕駛標注的手工模式”。

顯然,資本市場也正重新關注這個新興領域。

3.更卷,也更嚴格

數據標注的鏈條由三部分組成。

上游:1~150人的數據標注公司、線上散兵和小作坊。

中游:數據服務商,一類是承接上下游的中介方眾包平臺,一類是企業為穩定投入產業而選擇自建標注基地。

下游:科技公司、行業企業、AI公司、科研單位,在2018年左右以互聯網企業為主導,現在轉至車企、自動駕駛企業。

行業普遍采取分包模式,即先由甲方企業發標,第三方服務商參與競標,競標成功后進入企業的供應商梯隊,其中核心供應商能享受優先任務選擇權和更多訂單。

企業對核心供應商的要求是擁有至少30人的交付團隊,成熟的訂單交付經驗,建立培訓體系、把控交付質量和數量的能力。穩定的生產團隊,最終導向讓公司更有競爭力的低報價。

然而,管控團隊帶來的低價優勢已然被打亂。“今年競標慘烈!”一位服務商告訴「甲子光年」,“一個項目我們報200元,有人報80元一天。”

最終項目由報價低的團隊拿下,最后卻回到更成熟的團隊手上。“他們完不成又被甲方轉回給我們,但價格已經上不去了。”

由于代延的線上團隊不直接接觸甲方。所以市面上多級分包層層壓價的混亂局面,讓他們倍感壓力。

數據標注是資源型行業,誰能拿到和甲方的合作誰就有優勢。代延透露,一些個體注冊公司后,謊稱有40-50人的專業團隊,以極低的價格參與投標,拿下項目后,拆分成4-5份分給不同的團隊,小團隊再往下分,層層抽傭,中間商賺到差價,分給數據標注工的計件價越來越低。

只要有人接盤,就會一直螺旋向下。

「甲子光年」得到的一份價格表顯示,從2D標注到3D激光點云標注,標注項目單價一般為0.5~1.5元/框。代延曾接到過打了對折的單框價,“至少轉過四五手了”。

單價內卷直接導致標注人員的薪資縮水。代延和團隊屬于半全職狀態,團隊成員多為寶媽、大學生、自由職業者和職高學生,每天拉框6小時。保持著這樣的狀態,代延在2022年疫情期間,每月有4~5千元的收入。

“有電腦、有電就能操作”,這是數據標注招人貼中常見的吸引人入行的話。過去,這一度是數據標注行業最顯著的優勢。但今天這種優勢卻讓整個行業陷入內卷。現在代延每月收入只有2~3千元。

雖然收入降低,但工作量并沒有下降。恰恰相反,數據標注的工作更加復雜與細致。

數據標注的資深從業者們更懷念互聯網時期的標注市場:單框價格高3倍,項目量大。一個60~70人的團隊,能拿到月入30萬的業績。“現在市場上都是產值(單人每天標注產生的價值)不到百元的項目,以前一天大幾百。”一位從業者說。

那時的項目操作簡單且沒有要求,比如給無人車做2D場景標注,對圖片中的車輛拉框時,只要能框住就行,沒有要求。

但現在不同,“貼合度”是甲方最看重的驗收標準。“去年還要求誤差在5~7毫米,今年就要3~5毫米了。誤差要求越來越小。”代延說。

人工智能學者吳恩達多次強調,有標注的高質量數據才能釋放人工智能的價值,高質量數據越多,人工智能的發展就會越快。

在無人車的標注數據中,表現為矩形框與標注對象的貼合度,貼合度越高算法精度越高,算法對車輛的控制越精準。

高質量的文本標注項目,表現為語義理解的正確性、答題的正確率等。正確率越高,被訓練的大模型越聰明。

熟手才能保證數據交付又快又好。代延曾經讓一個新手參與核驗ChatGPT做完的數學題是否完整、邏輯是否正確、語言能否被小學生理解。新手標注的7500個數據因正確率太低,被甲方要求返工,代延和同事花了十幾天才糾正完。

數據標注越來越不是一個沒門檻的活。復雜的語音標注,醫療、法律、金融等專業數據集標注生產,更需要有學科知識儲備的專業人才做專業標注。

代延認為,以無人車項目為例,新人成為2D標注熟手需要做3個月,成為3D熟手需要練習4~6個月。

這種練習是指,訓練拉框的精確度,用鼠標在電腦的標注頁面一氣呵成拉出一個矩形框,能準確蓋住標注對象,不踩線、不漏點,甚至是嚴絲合縫。

圖/數據標注熟手指出標注中的問題

只是,當機器開始自學,替代人為機器做標注,人們花費時間訓練的技能還有意義嗎?

4.替代危機

代延意識到AI在靠近,是從前段時間做的圖片標注項目中。

這是一個代延做了兩年的老項目——識圖。數據標注工需要識別圖片中的文字并打印出來,價格是8毛/張。代延標注的數據,被喂入了識圖模型中。現在,這一模型已經熟練地識別圖片中的文字。代延的標注工作開始被縮減為訂正和審核。難度下降了,標注單價也下跌了。

被人類用標注訓練的AI,正在替代人力的標注工作。在蘇黎世大學的調查報告中,研究人員通過實測發現,ChatGPT在15項標注任務中的處理能力高于眾包人員。大模型嵌入眾包平臺的進度條也被拉快了。洛桑聯邦理工學院之后的研究發現,已有超過30%的眾包標注者在處理文本標注時使用了大模型。

AI無疑比人工更省時省力:研究人員表示,ChatGPT的單位成本只相當于MTurk的1/20。

代延也做好了這條業務線隨時會被“更完善的AI”取代的準備。他把未來押寶在更有技能要求的自動駕駛標注中。

但自動駕駛標注也正被AI侵入。相比人工的拉框方式,自動化標注只需要內置大模型,進行參數設置后,原本需要手動標注的矩形框會自動生成。目前唯一的問題是,生成的矩形框有踩線、貼合度太低等質量問題,需要人工逐一檢驗。

效率的提升讓車企驚喜。理想在使用大模型2.0進行自動化標定,效率是人的1000倍;特斯拉一直在積極推進自動標注的進展,比如在2022年6月裁撤了200名為特斯拉標注視頻,以改進輔助系統的美國員工,因為特斯拉的自動標注能力大幅改善,標注10000個不到60秒的視頻,只需要大模型運行一周,而不再需要人工標注幾個月。

AI數據公司整數智能的創始人林群書說,越來越多的車企和AIGC企業采用大模型產品做自動化標注,營收正在大幅增長。他們最新的動作是在新加坡建立研發分部。

但對于自動化標注的增長,第三方服務商沒那么樂觀。河南一家眾包平臺的項目經理說,自動化標注還不能取代60%以上的標注需求,只能作為輔助標注工具,處理單一或特定數據,提升人效。

另一家數據標注公司的產品經理認為,自動標注只能過濾簡單的基礎數據,還不能像人一樣從復雜有爭議的場景中精確識別物體。這也是數據標注市場,如今依然是以自動駕駛標注數據為主導的原因。

不過大家也認同,未來的數據標注將從重人力轉向重技術的趨勢。

總之,不是被同行“卷死”,就是被技術“卷死”。但坐以待斃肯定不行,數據標注的第三方公司在尋找未來的出路。

代延的計劃是緊跟市場,保持警惕,隨時裁員,同時向做自動化標注工具的方向發展。一家眾包平臺的創始人在和同行交流時說,未來不能堆人力,要有研發能力。

對于個人呢?行業里流傳的職場路徑是,新手標注工——熟手標注工——標注項目管理員/經理——甲方公司數據分析師,最終實現月薪上萬的晉升。

代延認識的數據標注工沒人在朝這個方向走,他們要么停留在原地,要么退出,最好的情況是建立自己的標注團隊,像代延這樣,不過他也沒有覺得更輕松。

一邊是AI風口帶來的項目需求增長,一邊是更混亂的競價、更低的人均產值和正迅速成長的AI。兩種情緒是交織的,AI會帶來無限機遇,AI也會淘汰“我們”。

(應受訪對象要求,文中名字均為化名)

封面:數據標注從業者在講解數據標注,圖片由受訪者提供

END.

原標題:《數據標注工:訓練AI,被AI替代|甲子光年》

閱讀原文

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 满城县| 长沙市| 北宁市| 嵊泗县| 湘潭县| 双鸭山市| 辰溪县| 讷河市| 库车县| 墨脱县| 南丹县| 潜山县| 靖边县| 安远县| 永州市| 体育| 通化县| 白玉县| 隆尧县| 远安县| 英吉沙县| 陆河县| 都安| 灵台县| 宝清县| 长岛县| 黎平县| 西藏| 逊克县| 呼和浩特市| 靖边县| 资源县| 宁远县| 金华市| 灵宝市| 东源县| 华安县| 社旗县| 苏州市| 岳西县| 稷山县|