▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

GPT時代,一位數據產業創業者的“生存法則”

2023-04-20 16:23
來源:澎湃新聞·澎湃號·湃客
字號

作者:周雅

“Data is the new oil. (數據是新型石油)”,這句如今聽起來頗有些陳詞濫調的話卻是關于“數據”廣為流傳的較早隱喻,17年前這個論調被英國數學家Clive Humby提出時,大家或許還沒有意識到,數據和石油其實一樣,都是要經過提煉、加工才能變為更有價值的產物。

而究其本質,對石油的再加工,需要一個全新的「化學工程」行業,并引發了一些產業變革。比如上世紀初如果沒有高辛烷值汽油出現,就沒有之后的汽車普及。今天,當人們開始對數據再加工,同樣需要一個全新的「數據工程」行業。

眾所周知,人工智能的三駕馬車,是算法、算力和數據。而一份來自UBS Global的報告卻顯示,現如今AI工程師70%-90%的時間都花費在訓練數據上。所以本質上,機器學習作為AI的大腦,是一種被數據投喂長大的算法技術,伴隨著建模門檻的降低,數據的門檻卻越來越高,使得數據工程變成了機器學習的瓶頸。

所以,我們可以說:AI正在改變世界,而數據工程則在改變AI。

在這個過程中,一批批技術為王的訓練數據服務商突出重圍。于是,倍賽科技和它的創始人兼CEO杜霖就出現在了我們的視野當中。

說起來,杜霖和數據打交道將近20年。早在大二期間,他就曾創辦過一家數據挖掘公司,最后以400萬美金賣掉。甚至在高中,他就自學了計算機視覺相關技術,并在核心期刊發表論文。

而倍賽公司的創立,也源于杜霖發現了機器學習進一步發展面臨的痛點。

創業雛形:數據才是那只木桶的短板

作為AI如今最輝煌的分支,機器學習曾經多年來卻一直進展緩慢,直到2012年的ImageNet圖像分類競賽中,深度卷積神經網絡模型AlexNet取得了驚人的成績,將錯誤率降低了近一半,使得深度學習開始受到廣泛關注和應用。

除了算力的疊加、算法的優化之外,高質量數據集就是不可逾越的一環。舉例來說,人臉是千變萬化的,但若沒有包括不同年齡、性別、種族、角度和光照條件下的人臉圖像數據集,可能就不會有AI識別模型的性能和準確率。

也是那時候,杜霖敏銳地嗅到了數據的前景,深感里面有很多事可做。于是,他火速拉了交大的兩位同學入伙,開發了一個完整的AI應用場景:一款能識別食材的冰箱,冰箱能識別出120種食材,綜合識別率達89.9%。雖然還不夠完美,但商用也是沒問題的。

在那個年代,這款冰箱開創了圖像識別冰箱的先河。杜霖回憶,“我們試著賣給海爾美的等家電公司,大家都很感興趣,但是誰也付不起費用,因為白電的利潤空間非常薄,這套識別系統軟硬件成本至少1000塊,而一臺冰箱也就賣一兩千塊錢。”“如果不是太過前衛,倍賽現在可能就是一家智能冰箱解決方案公司了。”

表面上看,是技術太過前衛,成本太過高昂,但經過仔細反思復盤,杜霖意識到背后有更通用的痛點:機器學習中,訓練數據工程占據了絕大部分研發時間。

算下來,這5個半月的時間里,他們花了3個半月做數據標注,真正訓練模型也就1個多月時間,其中數據標注用了將近30人,而數據訓練只有一位AI工程師。

杜霖從中總結出兩條頗有遠見的觀點:第一,所有行業都會有被機器學習滲透的那一天,因為它真的能提效,所以它會隨著數據的豐富和建模門檻的降低,變得越來越普及。第二,正因為機器學習會普及,圍繞在訓練數據的工程化一定有巨大潛力。

“解決數據問題更重要”,杜霖說。于是,倍賽科技公司就在這樣的背景下誕生了。

公司雖然落成了,但這也只是一個開端。倍賽從2015年便開始研發自己的數據標注系統Origin1,直到2017年底才開始接業務。蟄伏了三年,只為讓系統足夠穩定成熟。到2018年反哺也聯袂而至,倍賽科技的營收同比增長了五六倍,達千萬規模。“當時我們每天都會收到大量的需求。”杜霖說。

戰略轉型:黎明之前的至暗時刻

創業路上有無數的暗礁,都源于各種第一次,第一次組隊伍,第一次找融資,第一次商業化……對于倍賽來說,潛伏最深的那塊險地,是第一次技術化轉型。

轉型,對于任何一家公司包括創業公司而言,它的考驗程度甚至堪比一場再創業,因為那意味著對舊事物的推翻、對新事物的創建,就勢必會有一個否定自己再證明自己的過程。

在倍賽的發展歷程中,杜霖曾寫過一封全員信,說公司最難的時候,不是賬上的錢只夠維持兩個月工資,也不是拿著的一個大客戶訂單突然就丟了,最難就是那一場技術平臺大轉型。

那一年,倍賽的核心產品Origin1已經穩定發展了4年,但團隊遇到了一些反復出現的問題——公司的AI項目經理和公司的客戶經常會花大量時間去磨某一個數據該怎么標。

拿一個很簡單的自動駕駛場景舉例,下雨時攝像頭會變臟,這時候就要加一個標簽“攝像頭是否潔凈”,因為它會影響建模。但就是這種常見場景,卻是要求數據標注方案迭代很多次。

諸如此類的問題,極大影響了數據處理的效率。杜霖進一步發現,這些問題已經無法在既有產品上修修補補來解決了,必須做一次重構,全部推倒重來。

思索再三,杜霖及同事們最終決定對核心產品下手。而且,既然要改,就要改得徹底。作為一款企服的產品,它需要“商業化友好”,它的底層性能要強大完備;而作為一款國際化視野的平臺,它需要“開發者友好”,所以用戶體驗也要跟上步伐。

用一句話總結目標:倍賽需要將公司原來的“數據標注”產品Origin1,轉型為一個“訓練數據工程化”開源平臺Xtreme1。

這項重大的產品升級,同時面向N個目標訴求,操作起來必然是牽一發而動全身。那陣子,這邊Origin1還在不斷商業化,那邊Xtreme1只是襁褓嬰兒。需要用老產品的“回報”東墻,補新產品的“開發”西墻。

更難的是,公司上下包括杜霖自己在內,大家并不知道新產品能否做的出來,何時才能做出來,唯獨只是堅定要持續投入。那段時間里,整個團隊的士氣進入了一種又迷茫又激進的擰巴狀態。

作為公司主心骨,杜霖眼前的難處也有一籮筐,包括怎么保持新舊兩邊產品部門的目標協同一致;怎么做好兩個產品的平穩過渡;怎么匹配新戰略,向VC介紹新的商業邏輯;以及,Origin1做了4年的閉源,突然要從Xtreme1轉為開源,雖然迎合了大趨勢,但到底是福是禍?

在前后1年多的時間里,杜霖做了無數適配,來掌舵這次轉型。他在成都創立了研發中心,從零開始招募第一位員工。而整個團隊,也頻繁往返北京成都兩地,進入高強度工作狀態。

幸好,倍賽最終有驚無險地闖過了難關。

經過無數次測試,新一代支持多模態數據的AI訓練數據平臺Xtreme1橫空出世,并在2021年12月30號加入Linux基金會并實現開源。

回看這次轉型,杜霖也感慨萬千,他說“這不光是一次產品的升級,更是一次能力的升級,因為公司因此實現了從技術投入、團隊升級、戰略調整的一系列蛻變。”

他在那封全員信的最后寫道:所謂的至暗時刻,不是午夜12點,而是黎明沒來、深夜未走的凌晨四五點。

消除誤解:誰說數據標注沒有含金量

業界有一種誤區認為,數據工程的核心就是“數據標注”,而數據標注只是“處理多少數據,就有多少人工”的藍領流水線。

杜霖以產品舉例稱,“Xtreme1成為了Linux基金會關于MLOps版圖中全球首個填補“Annotation&Visualization”空白的產品。”所謂MLOps,是指將DevOps(開發運營)中的最佳實踐應用于機器學習的運營。

隨著數據的復雜性增加,以及新算法的不斷涌現,機器學習模型的部署和運營變得越來越困難。而MLOps通過采用自動化流程和工具,使機器學習模型的部署、監測和維護變得更容易、高效和可靠。

Xtreme1正是圍繞Data-Centric MLOps的應用策略展開,從而更便捷、高效地幫助客戶實現AI應用交付。某種程度上,這可以理解為是一種用“人工智能”提升“人工智能開發”的工作方法。AI helps AI。

在產品細節上,Xtreme1從功能層面由五大板塊構成:Ontology Center,Annotation Suite,Dataset Curation,SOTA Models和BasicBot。比如Ontology Center這一功能,當中關于車的屬性就有很多種,SUV、轎車、卡車、自行車等等,客戶可以基于屬性,去生成一個想要的標準方案。或者結合業務場景,去定制一個方案。“我們在X1里開發了一系列自動化工具,去幫助客戶實現數據標注方案。”

如今,Xtreme1已經成為倍賽科技的拳頭產品,并得到招商銀行、英特爾、南方電網、京東、Bosch、科大訊飛、商湯等近千家頭部企業客戶的青睞。去年,倍賽科技還拿到英特爾AI百佳創新激勵計劃的“芯銳獎”生態拓展獎,使用英特爾處理器 IntelXeon?Processor、Intel?OpenvINo?等技術對產品開展模型訓練。

跨物種聯手:人工智能離不開人類老師

不過,要把AI轉化為生產力,不僅要懂AI,更要懂場景。數據工程的門檻,不僅在于技術研發上,更在于各個行業的Know-How上。

杜霖說,“我們的產品經歷了數萬項目的打磨,當一接手某種類型的項目,在系統層面,我們就知道它可能會涉及到哪些數據標注的規則,這在內部稱之為Data Driven(數據驅動),我們會去理解客戶為什么做這個數據、想解決什么問題。

比如同樣都是道路場景,自動配送車、無人駕駛車、配送機器人這三種車輛,標注方案卻是完全不同的。

對于自動駕駛,需要大量補充類似“道路臨時施工的錐子”Corner case數據;而對于酒店配送機器人,就要去找“電梯上下口特征”的數據。“不同的場景有不同的數據要求,我們是理解的,因為我們做了太多案例。”

甚至,在杜霖看來,ChatGPT之所以這么驚艷,也是有人類Know-How參與的原因。

也就是說,ChatGPT的背后功臣,除了有實現更大級別模型的「預訓練」,此外把Human in the Loop(或被稱之為RLHF)這件事情做好也是關鍵。

HITL(Human in the Loop,人機協同),可以簡單理解為用“人類智能”結合“機器智能”來創建機器學習模型。實際做法就是用“言傳身教”的方法,給機器這個“學生”配個優秀的“人類老師”,把機器學習原本的“填鴨式教學”升級到“答疑式教學”,來迅速提升它的學習成績。

也就是,當生成式AI創造出內容后,人類根據自身Know-How來給結果打分,幫助機器對齊人類思維。

“當下的機器學習大部分是依賴于HITP。”杜霖指出,ChatGPT通過來自人類反饋的強化學習(RLHF)生成的InstructGPT模型,比100倍參數規模無監督的GPT-3模型效果更好,也說明了有監督的數據標注是大模型應用成功的基礎。

反觀回來,作為一家全棧AI數據及模型解決方案供應商,杜霖所創立的倍賽科技的核心宗旨,就是用更好用的工具更好的達到Human in the Loop,把客戶的建模成本進一步降低,建模效率進一步提升。

杜霖把倍賽的這項業務總結為“Training Data Engineering(訓練數據工程化)”,其中涉及到的環節就包括了:數據采集、數據清洗、數據標注、數據集管理、模型建立、模型部署、應用程序構造等。

所以,無論是從哪個角度看,數據工程不僅是個技術密集型產業,更是一個要求責任感很重的產業。好的數據集,就是AI的優質教科書,賦予AI靈魂的存在。

不過在杜霖看來,國內的這個行業其實被一些新涌入者搞的有些混亂。很多同行一味實施低價策略,甚至是虧錢接活,拼體力搶單,搶到之后再去講融資的故事。“這是一個不健康的業態和模式。”

相較而言,在國際市場上,數據工程行業也是高度競爭的,但是大家的競標價格基本都是八九不離十的,客戶最后研判的標準會上升到技術實力、交付能力、業務貼合度等指標,不會一味的只看價格。

最終的結果是,國際數據處理公司的估值動輒幾十億,中國可能只有十分之一,這也讓數據工程被誤解甚至邊緣化。

也正因如此,杜霖堅定的將把“更強的技術能力”和“國際化”作為公司核心方向。“倍賽一直把自己標桿成一個世界級的產品,所以我一直要求產品經理去看世界最好的工具,眼光還是要放高。”目前,倍賽全線產品都是中英文雙語,在成都的研發部門60%以上在英文環境中工作,非研發部門90%以上實現英文工作環境。

他強調說:“整個數據行業里,未來能走出來的一定是工具能力非常強、且有全球化基因的公司”,因為AI的通用屬性意味著,你的產品總有一天會被放到全球商業舞臺上去卷。

數據獵手:業務出海,產品說話

回望整個創業之旅,杜霖最有成就感的過程,就是帶動全員統一目標,做出有潛力的產品,從而實現從0到1、從1到100的增長過程。

“我一直在試圖把自己所學的工程能力,轉化到現實世界去解決實際問題。我是一個非常典型的喜歡去解決問題的人。”杜霖相信,能解決實際問題的產品就是好產品。

但由于技術是一個相對抽象的概念,技術的發展是個漫漫長路,創業者如何更好地普及技術?杜霖頓了頓說道,“我相信倍賽是以產品驅動增長的公司,就讓產品自己說話吧。”比如前陣子,產品收到了不知名用戶的好評,是來自瑞士理工大學的某個用戶被挪威某個大學的校友推薦用了產品,“這讓我很有成就感。”

談及未來發展,擺在公司面前依然有兩條路可走,是做一個小而精的垂類公司,還是做一個大而美的平臺公司?杜霖說,還是回到最初的定位,就是圍繞多模態數據做好一套訓練數據工程化(Training Data Engineering)和訓練數據生命周期管理(Training Data Lifecycle Management),因為這是未來一切可能的地基。

如何看待AI未來?杜霖說,“AI的終極方向,一定是在可控的范圍內,進一步提升全世界的效率”,如果類比的話,AI只是一次工業革命,是對生產力的又一次解放,它的跨時代意義跟蒸汽機時代是一樣的。

蒸汽機剛出現時也很笨拙,但是某一天,大家發現它可以取代馬車、人力,然后被取代的人慢慢就反相變成AI的操作者,比如司機操作方向盤,工人操作機械。

所以,AI所取代的工作,未來依然會有更多的人反向去操作這樣的AI,也就是我們之前所談的Human in the Loop。也正因如此,訓練數據工程化的工作現在重要,隨著AI在不同行業的深入,還會變得更加重要。“人類要教AI好的東西,和對的東西。“

在連續創業的間隙,杜霖還因為愛好,而當過幾年的海上獵手,甚至后來還因此孵化了一家海釣漁具公司。他說自己喜歡出最遠的海,去釣很大的魚,享受與未知世界斗智斗勇的感覺:“我釣過最大的魚是在西沙的一條接近300多斤大鯊魚,我用手搖竿搖上來的。”

不過,只要了解釣魚這項運動的愛好者都清楚,其中取勝的關鍵,并不是收桿那一刻的拼體能,而是在整個過程的運籌帷幄。

從這個角度看,海上獵手如此,數據獵手也如此。

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 乌什县| 漳平市| 乾安县| 建平县| 临猗县| 平果县| 松阳县| 焦作市| 科尔| 内乡县| 西城区| 滁州市| 绵竹市| 文山县| 龙南县| 惠来县| 吴堡县| 深泽县| 汾阳市| 奉贤区| 合江县| 民乐县| 天镇县| 鄂尔多斯市| 甘德县| 昭苏县| 阿克| 芜湖市| 四平市| 肇源县| 宝山区| 庆元县| 武强县| 河东区| 盐池县| 德江县| 青海省| 扎囊县| 开封县| 漳州市| 和顺县|