- +1
百度山西數(shù)據(jù)標(biāo)注基地:未來5年將培養(yǎng)5萬名AI數(shù)據(jù)標(biāo)注師
8月7日,澎湃新聞?dòng)浾咛皆L了百度位于山西省太原市的人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,該基地是全國范圍內(nèi)人員和產(chǎn)值規(guī)模最大的單體數(shù)據(jù)標(biāo)注基地,入駐數(shù)據(jù)標(biāo)注企業(yè)35家,有超過2000名的AI(人工智能)數(shù)據(jù)標(biāo)注師,支持無人駕駛、語音識(shí)別、人臉識(shí)別、地圖數(shù)據(jù)等多種數(shù)據(jù)標(biāo)注場景。
按照百度的計(jì)劃,未來5年,百度還將培養(yǎng)數(shù)據(jù)采集、標(biāo)注專業(yè)人員5萬人。

百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地。
“七八年前,我們是通過線上眾包的方式,讓AI數(shù)據(jù)標(biāo)注師來做一些比較簡單的任務(wù),但隨著人工智能的發(fā)展,應(yīng)用場景越來越多,任務(wù)難度越來越高,再加上對(duì)數(shù)據(jù)安全、隱私、質(zhì)量和效率的要求,百度決定建立一個(gè)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地。”百度(山西)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地負(fù)責(zé)人尉赤告訴澎湃新聞?dòng)浾?,基地一方面為百度自身的人工智能發(fā)展提供服務(wù),另一方面可以向合作伙伴輸出基地的數(shù)據(jù)能力和一整套的解決方案。
據(jù)了解,百度在2011年自建了數(shù)據(jù)采標(biāo)團(tuán)隊(duì),支持內(nèi)部人工智能業(yè)務(wù)的發(fā)展。2018年9月,百度與山西省轉(zhuǎn)型綜合改革示范區(qū)達(dá)成合作,共同打造數(shù)據(jù)標(biāo)注基地。目前,百度已經(jīng)幫助山西從全國各地引入35家數(shù)據(jù)標(biāo)注企業(yè),通過導(dǎo)入百度自有的數(shù)據(jù)標(biāo)注業(yè)務(wù),為人員提供業(yè)務(wù)培訓(xùn),幫助標(biāo)注企業(yè)實(shí)現(xiàn)營業(yè)收入過億元。而百度與山西數(shù)據(jù)標(biāo)注基地的合作模式,未來還將拓展到更多省市,提供更多的AI就業(yè)崗位。
AI數(shù)據(jù)標(biāo)注師,被稱為人工智能背后的人。2020年2月,“人工智能訓(xùn)練師”正式成為新職業(yè)并納入國家職業(yè)分類目錄,數(shù)據(jù)采集和標(biāo)注是人工智能訓(xùn)練師的主要任務(wù)之一。他們的工作是教會(huì)AI認(rèn)識(shí)數(shù)據(jù),有了足夠多、足夠好的數(shù)據(jù),AI才能學(xué)會(huì)像人一樣去感知、思考和決策,更好地為人類服務(wù)。
在基地一間間的辦公室中,每個(gè)電腦前都坐著一名AI數(shù)據(jù)標(biāo)注師,他們將根據(jù)各自分配的任務(wù)對(duì)圖像、語音、視頻、文本進(jìn)行標(biāo)注。比如,對(duì)于戴口罩的人臉圖像,數(shù)據(jù)標(biāo)注師會(huì)對(duì)人臉的眉毛、眼鏡、顴骨等人臉關(guān)鍵點(diǎn)進(jìn)行精準(zhǔn)的標(biāo)注,標(biāo)注的特征點(diǎn)越多,AI就越能精確地識(shí)別戴口罩場景下的人臉,讓人們在不摘口罩的情況下也能實(shí)現(xiàn)精確的體溫測量,或是通過人臉閘機(jī)。
“要教會(huì)AI,首先要把知識(shí)轉(zhuǎn)化成它能消化和吸收的‘語言’,你可以將數(shù)據(jù)想象成AI的燃料,人類對(duì)采集回來的原始數(shù)據(jù)進(jìn)行加工,標(biāo)注的過程就可以提取出一些數(shù)據(jù)信息。比如,在采集大量的人臉數(shù)據(jù)后,AI數(shù)據(jù)標(biāo)注師會(huì)對(duì)人像進(jìn)行標(biāo)注,提取特征,將特征‘喂’給人工智能模型,那么模型算法相當(dāng)于總結(jié)了之前人工標(biāo)注出的信息,并找出通用規(guī)律,那這個(gè)人工智能模型就具備了人腦才有的認(rèn)知和判斷能力?!蔽境嗾f。
據(jù)悉,AI數(shù)據(jù)標(biāo)注師技術(shù)門檻并不高,經(jīng)過一定的培訓(xùn)就能上崗,招工人群范圍廣泛。在基地,大專以上學(xué)歷的數(shù)據(jù)標(biāo)注師占比超過80%,一些中?;蚋咧袑W(xué)歷的人員也可勝任這項(xiàng)工作。
在探訪中,基地AI數(shù)據(jù)標(biāo)注師李宇龍告訴澎湃新聞?dòng)浾?,他入行做的第一個(gè)項(xiàng)目是車道線的標(biāo)注?!氨热?對(duì)車輛所行駛的車道兩側(cè)的線進(jìn)行編號(hào),包括識(shí)別這條線是實(shí)線還是虛線。剛開始不知道這項(xiàng)工作到底運(yùn)用到什么地方,后來才知道是自動(dòng)駕駛?!崩钣铨堈f,他所做的2D/3D融合標(biāo)注可助力自動(dòng)駕駛模型的訓(xùn)練,幫助車輛實(shí)現(xiàn)視覺和雷達(dá)的感知,主要應(yīng)用于自動(dòng)駕駛場景的訓(xùn)練落地。
另一位AI數(shù)據(jù)標(biāo)注師郭梅則向記者介紹,她原本就職于山西的傳統(tǒng)礦業(yè)單位,一開始每天只能標(biāo)注兩三百張圖片,現(xiàn)在提升到每天能完成1300多張,收入高于當(dāng)?shù)仄骄杖胨健D片框選是數(shù)據(jù)標(biāo)注師的工作之一,它可助力圖像識(shí)別模型訓(xùn)練,用于框選圖片中的識(shí)別主體目標(biāo),常見于對(duì)人臉、人體、障礙物、紅綠燈的框選,可應(yīng)用于智能駕駛、智能安防、智能設(shè)備的場景落地。
對(duì)于為何要在未來5年培養(yǎng)5萬名AI數(shù)據(jù)標(biāo)注師,尉赤向澎湃新聞?dòng)浾弑硎?,?shù)據(jù)服務(wù)領(lǐng)域與人工智能的發(fā)展息息相關(guān)?!斑@是個(gè)高速發(fā)展的行業(yè),5年培養(yǎng)5萬人并不算多,我們的線上眾包注冊用戶有將近2000萬人,目前每個(gè)月在線上為我們提供服務(wù)的人將近5萬人。如果按照行業(yè)增長速度來看的話,培養(yǎng)5萬人還不一定夠?!蔽境嘞蚺炫刃侣?dòng)浾呓榻B。
對(duì)于如何保障數(shù)據(jù)安全,尉赤說:“這也是百度要建設(shè)基地的原因,在基地,每個(gè)房間都有24小時(shí)視頻監(jiān)控,上崗之前進(jìn)行人臉打卡,數(shù)據(jù)加密,作業(yè)期間若涉及數(shù)據(jù)敏感項(xiàng)目,會(huì)要求數(shù)據(jù)標(biāo)注師們將手機(jī)放在固定的地方,而線上的數(shù)據(jù)標(biāo)注師則是在處理一些敏感性不高的數(shù)據(jù)?!?/p>





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司