- +1
這位“天才少年”野心勃勃,要壟斷人形機器人的“大腦”?
如今的人形機器人,個個都“沒頭腦”。
對這些人形機器人的控制,依賴的是程序員“預先編好的程序”,向機器人輸入情況描述以及應對方式的規(guī)則,使其在相應情況下完成操作。
宇樹科技創(chuàng)始人王興興在接受采訪時,曾通俗地解釋:“你能讓他(人形機器人)倒立、空翻,或者做一些避障,這些都是針對固定任務做了專門的AI訓練”,是單一功能的AI。
譬如,人形機器人上春晚舞臺跳手絹舞這個復雜的任務場景,就可能是根據(jù)“預先編好的程序”進行的訓練。
但是,一旦場景和任務稍微換一下,人形機器人的成功率就會暴跌。
就像在春晚表演完后,人形機器人離開舞臺,就需要有人幫助“掐住脖子”。面對劉謙的握手邀請,人形機器人竟突然下跪癱倒。

截圖于劉謙發(fā)布的春晚花絮
甚至于,控制人形機器人,有時還需要工作人員通過遙控器來操作。
某種程度上,這些人形機器人就是一個個提線木偶、遙控玩具,稱不上“人”,因為它們“沒頭腦”。
這也是人形機器人很難快速量產(chǎn)的原因,沒有消費者愿意為一個不夠聰明的人形機器人買單。“笨蛋”人形機器人,又能如何應對我們的物理世界千變?nèi)f化的情況?
至于人形機器人“笨”的原因,王興興坦言“如今泛用性的AI還是不太夠。”他表示,全球都在等待真正的機器人“大腦”的誕生。
人形機器人“大腦”研發(fā),無疑是一個很有意思的賽道。
彭志輝就對這個賽道十分感興趣。

彭志輝,圖源:“稚輝君”微博
作為曾經(jīng)的華為“天才少年”,彭志輝年薪一度高達200萬元。他離職創(chuàng)業(yè),自然不同于一般的創(chuàng)業(yè)者。
他有著更高追求,其創(chuàng)立的智元公司沒跟隨同行、將重心放在機器人軀體上,而是放在機器人“大腦”上。
近期,智元公司發(fā)布了首個通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1),標志著國內(nèi)機器人從單一功能向多場景泛化的技術(shù)突破。
GO-1看似回答了王興興的“泛用性的AI還是不太夠”的問題,但距真正的機器人“大腦”還有一段距離。
而彭志輝與智元機器人的“野心”:希望未來所有機器人都能共享同一個“大腦”——GO-1,或無法實現(xiàn)。
并非“首家”
人形機器人從來都不是新鮮事物。
過去幾十年,世界各地都有各種人形機器人研發(fā)出來。文藝作品也不停地演繹著人形機器人的“無所不能”,人們對這一形象十分熟悉。
但《刃辛機器人》了解到,我們生活生產(chǎn)中卻很少有人形機器人的應用。
如今零星“進廠打工”的,并非人形機器人,多為機械臂等各種形態(tài)的工業(yè)機器人,而且從事都是重復性、機械性的工作。
截至目前,人形機器人“炫耀性”作用遠大于實際作用。
王興興創(chuàng)辦宇樹科技之初,就沒有直接研發(fā)人形機器人,而是從雙足的機器狗產(chǎn)品開始。他在2009年就嘗試過做人形機器人,認為太復雜了,無法駕馭。
直到AI大模型的出現(xiàn),為人形機器人帶來了新的想象力。
簡單來講,借助大模型,將語義理解能力和推理生成能力引入其中,就相當于給人形機器人裝上了“大腦”,能夠理解世界和人類,真正地為人類服務。
但,這僅僅存在于“想象”階段,如王興興所言,如今泛用性AI還不夠,即用于人形機器人的具身智能大模型并不成熟。
ChatGPT、Deepseek等AI大模型,是無法直接用到人形機器人上,為其充當“大腦”的。人形機器人要通往AGI,需要專門針對具身智能領(lǐng)域的多模態(tài)大模型 —— 具身智能大模型,來提升機器人在感知、決策、控制、交互等方面的能力。
具身智能大模型是基于AI技術(shù)打造,專門賦能人形機器人,幫助人形機器人實現(xiàn)在通用應用場景下的落的專用大模型。
ChatGPT、Deepseek等非具身智能大模型服務的對象是人類,輸出的內(nèi)容是給人看或者給人讀,更多還是在人機交互、內(nèi)容生成等方面展現(xiàn)價值。
具身智能大模型的服務對象是機器,其輸出的內(nèi)容是需要機器人能夠理解,并最終要轉(zhuǎn)化為具體可執(zhí)行動作的控制指令,從而與周圍環(huán)境進行交互,并做出各種動作。
智元機器人推出的GO-1,絕非國內(nèi)第一個具身智能大模型。在此之前,國內(nèi)一些機器人初創(chuàng)企業(yè)已經(jīng)開始推出自己的具身智能大模型。
譬如,有鹿機器人的Master 2000、若愚科技的九天大模型、千訣科技的千訣.機器人大模型、穹徹智能的Noematrix Brain、X square(自變量機器人)的Great Wall系列的WALL-A模型以及千尋智能的具身智能大模型……
GO-1僅僅是國內(nèi)首個通用具身基座模型。
所謂通用具身基座模型,采用模塊化架構(gòu)(如ViLLA框架),整合多模態(tài)大模型(VLM)、隱式規(guī)劃器和動作專家,支持跨本體適配和任務泛化,其重要的特點是泛用性。
簡而言之,GO-1是“啥都能干,但都不精”。
就像一個廚子,?能看菜譜學做菜(看人類視頻學習),今天炒川菜、明天做西餐(適配不同場景)?,甚至能用新買的廚具(跨本體硬件)。雖然做每道菜不是最頂尖的,但換菜單時不用重新買機器人(降低成本)。
陷“數(shù)據(jù)荒”
GO-1距離真正的人形機器人“大腦”有多遠?
首先,不可否認GO-1具有充當人形機器人“大腦”的潛力。
GO-1通過ViLLA架構(gòu)實現(xiàn)多模態(tài)學習,可利用人類視頻數(shù)據(jù)提升小樣本泛化能力,支持機器人從單一任務到開放場景的靈活切換。
例如,GO-1支持的智元機器人靈犀X2已能完成騎單車、縫葡萄等復雜任務,并初步具備自然語言交互能力。
這表明GO-1具備整合感知、決策和執(zhí)行能力,符合“大腦”的核心需求。
GO-1還突破了傳統(tǒng)預設程序的限制,可結(jié)合語義推理執(zhí)行動態(tài)指令?。
例如,靈犀X2能通過自然語言指令完成充電協(xié)作、家務輔助等任務,體現(xiàn)了從“工具”到“智能體”的轉(zhuǎn)變?。
其二,GO-1距離真正的人形機器人“大腦”還很遠。從智元公司對這一大模型的訓練過程,就可以得出這一結(jié)論。
當初,智元公司決定構(gòu)建人形機器人“大腦”之后,就發(fā)現(xiàn)門檻太高。
眾所周知,大模型的訓練是需要大量的數(shù)據(jù)投喂的。
ChatGPT、Deepseek等非具身智能大模型,在訓練過程“吃”下去的數(shù)據(jù)可謂不計其數(shù)。單就ChatGPT,就已消化了全球互聯(lián)網(wǎng)2/3的文本語料。
人形機器人“大腦”所需“投喂”的數(shù)據(jù),更多的是動作數(shù)據(jù),因為它們是需要像人一樣進行各種動作。
文本語料從互聯(lián)網(wǎng)中就可以獲得,但動作數(shù)據(jù)卻非常難找。
智元公司曾試圖尋找行業(yè)內(nèi)的開源數(shù)據(jù)庫,但發(fā)現(xiàn)高質(zhì)量、統(tǒng)一格式的數(shù)據(jù)幾乎不存在。
行業(yè)內(nèi)雖然開源了百萬條由真實機器人收集的訓練數(shù)據(jù)集,但是這些數(shù)據(jù)實際上由不同公司、不同型號規(guī)格的機器人采集,數(shù)據(jù)質(zhì)量較低,達不到智元公司的要求。
智元公司決定“笨鳥先飛”,采取“笨辦法”,于2023年9月建立了動作數(shù)據(jù)采集工廠。在工廠里一比一地模仿人類生活中的每一個動作,將其采集下來,形成數(shù)據(jù),然后“喂”給大模型。
為此,他們搭建了家居、餐飲、商超、辦公和工業(yè)等五類應用場景中。
在不同場景中,數(shù)據(jù)采集員們手持設備,手把手地控制人形機器人完成抓、握、放等動作。有時采集員頭戴VR設備,精準地讓機器人模仿學習人類動作。
譬如,在臥室中,人形機器人乖巧地跟著采集員學習疊衣服。在餐桌前,機器人學著把餐具挨個擺放整齊,還要學會打餐各式菜肴,并且不會手抖。在商超收銀臺前,機器人一只手拿掃碼器,另一只手拿著商品掃碼。

采集“收銀”機器人的數(shù)據(jù),圖源:36氪
人形機器人每完成一個動作,就能采集一套數(shù)據(jù)。這些數(shù)據(jù)聚集起來,上傳至云端,便被智元團隊喂給大模型,從而讓機器人真正掌握一項技能,比如沖咖啡、熨衣服等。
笨鳥先飛,談何容易?
僅一個倒水的動作,大模型就需要“吃”下上萬條數(shù)據(jù)才能學會。而據(jù)36氪前幾個月的報道,一位采集員每天僅采集約150條數(shù)據(jù),工廠里的近百臺機器人日均采集條數(shù)據(jù)也才3至5萬條。
雖然僅僅幾個月,智元公司就積累了涉及217個任務的百萬條高質(zhì)量標準動作軌跡數(shù)據(jù),規(guī)模全球最大。但是,這些動作數(shù)據(jù),與ChatGPT“吃”下的全球互聯(lián)網(wǎng)2/3的文本語料的數(shù)量級相比,可謂少得可憐。
靠這些“少的可憐”的動作數(shù)據(jù),GO-1這樣的具身智能大模型又何時能夠達到ChatGPT的聰明程度呢?
野心難實現(xiàn)
AI大語言模型,如ChatGPT,之所以表現(xiàn)得聰明,是因為在不斷“喂”其數(shù)據(jù)進行訓練后,量變引發(fā)質(zhì)變,使其在某個時間點,突然出現(xiàn)的、難以預測的、超越了模型初始設計和預期的智能行為或能力,即“智能涌現(xiàn)”現(xiàn)象。
業(yè)內(nèi)稱此為?尺度定律。即,隨著模型參數(shù)、訓練數(shù)據(jù)量和計算資源的指數(shù)級增長,模型的性能會以可預測的冪律(Power Law)方式提升?,甚至在某些任務中表現(xiàn)出“涌現(xiàn)”的智能能力。
具身智能大模型需要獲得ChatGPT這樣的聰明度,必須不斷“喂”動作數(shù)據(jù)。只要“喂”得足夠多,到某一天,具身智能大模型就會突然變得聰明起來,真的像真人“大腦”一樣了。
具身智能大模型需要“喂”多少數(shù)據(jù),才能像真人“大腦”呢?
智元公司采取的采集動作數(shù)據(jù)的“笨辦法”,堪稱龜速。業(yè)內(nèi)人士坦言:“如果只靠我們一個工廠采集數(shù)據(jù),采集1億條需要幾百年。”
目前,全球機器人動作數(shù)據(jù)相較于大語言模型的“核爆點”還差3-4個數(shù)量級。
智元公司目前想出的新對策,就是聯(lián)合同行一起采集數(shù)據(jù)。
智元公司首先對自己采集的數(shù)據(jù)開源,“不擔心因為別人拿走一些數(shù)據(jù)而被超越,另一方面也是希望有更多人成為同道中人。”大家一起采集數(shù)據(jù)。
GO-1的發(fā)布,就是為了解決數(shù)據(jù)不夠的問題。但是,這也隱藏了智元公司,以及其創(chuàng)始人彭志輝的一個野心,那就是“希望未來所有機器人都能共享同一個‘大腦’”,而這個大腦就是GO-1。
因為GO-1的一大特點是泛化性好,能在不同機器人本體上部署。大家一起采集的數(shù)據(jù),可以通過GO-1這一通用具身基座模型共享。
GO-1作為首個通用具身基座模型,有著唯一性,若相關(guān)人形機器人公司沒有專用的具身智能模型,倒是可以共享數(shù)據(jù)。但是,如今很多人形機器人公司都有各自的具身智能模型,都在進行數(shù)據(jù)“投喂”,進行艱苦訓練,為何要與GO-1共享數(shù)據(jù)?
GO-1要變“聰明”,所需數(shù)據(jù)可不少。智元公司到底聯(lián)合多少家公司一起采集數(shù)據(jù),才能符合?尺度定律,達到人形機器人“智能涌現(xiàn)”時刻呢?
僅靠幾家公司,顯然不行。哪怕聯(lián)合所有研發(fā)機器人“大腦”的公司,恐怕都不夠。
結(jié)語:或可借鑒自動駕駛訓練模式
國內(nèi)的智能新能源汽車發(fā)展迅速,L3級自動駕駛汽車開始量產(chǎn)。
汽車能進行自動駕駛,也經(jīng)過了大量相關(guān)數(shù)據(jù)“投喂”和訓練。僅僅在物理世界采集汽車行駛路測所需的數(shù)據(jù),費時費力,而且無法完成。
據(jù)美國蘭德公司研究,自動駕駛汽車要保證絕對安全,需要110億英里(177億公里)的里程測試。假設由100輛車組成車隊,每年365天每天24小時不間歇以28英里每小時的平均速度進行測試,大概需要500年。
在激烈競爭中“存活”下來的車企,不可能采取這樣的“笨辦法”。它們的做法是仿真訓練,即通過數(shù)學建模的方式將自動駕駛實際的應用場景進行數(shù)字化還原,建立盡可能接近真實世界的系統(tǒng)模型,從而進行訓練。
仿真訓練的速度是物理世界路測的千倍、萬倍,這才使得自動駕駛發(fā)展如此迅速。
《刃辛機器人》認為,人形機器人的具身智能大模型,也可借助仿真訓練,更快地達到“智能涌現(xiàn)”時刻。
只是,相較于自動駕駛只需模擬道路及周邊環(huán)境等,具身智能大模型需要的仿真訓練設計場景則多得多,復雜得多。(文/刃辛機器人 陳重山)
參考資料
[1] 《加緊建廠拼量產(chǎn),上海具身智能“獨角獸”為何強推這條路》,上觀、文匯報,沈湫莎
[2] 《我們?nèi)タ戳酥窃獧C器人的“數(shù)采廠”,等等!這不是星球大戰(zhàn)片場嗎?》,36氪、智能涌現(xiàn),田哲
[3] 《自動駕駛究竟需要什么樣的仿真?》,智車科技官方
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務許可證:31120170006
增值電信業(yè)務經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司