下載客戶端

登錄

這位“天才少年”野心勃勃，要壟斷人形機器人的“大腦”？

2025-03-16 08:02

來源：澎湃新聞·澎湃號·湃客

如今的人形機器人，個個都“沒頭腦”。

對這些人形機器人的控制，依賴的是程序員“預先編好的程序”，向機器人輸入情況描述以及應對方式的規(guī)則，使其在相應情況下完成操作。

宇樹科技創(chuàng)始人王興興在接受采訪時，曾通俗地解釋：“你能讓他（人形機器人）倒立、空翻，或者做一些避障，這些都是針對固定任務做了專門的AI訓練”，是單一功能的AI。

譬如，人形機器人上春晚舞臺跳手絹舞這個復雜的任務場景，就可能是根據(jù)“預先編好的程序”進行的訓練。

但是，一旦場景和任務稍微換一下，人形機器人的成功率就會暴跌。

就像在春晚表演完后，人形機器人離開舞臺，就需要有人幫助“掐住脖子”。面對劉謙的握手邀請，人形機器人竟突然下跪癱倒。

截圖于劉謙發(fā)布的春晚花絮

甚至于，控制人形機器人，有時還需要工作人員通過遙控器來操作。

某種程度上，這些人形機器人就是一個個提線木偶、遙控玩具，稱不上“人”，因為它們“沒頭腦”。

這也是人形機器人很難快速量產(chǎn)的原因，沒有消費者愿意為一個不夠聰明的人形機器人買單。“笨蛋”人形機器人，又能如何應對我們的物理世界千變?nèi)f化的情況？

至于人形機器人“笨”的原因，王興興坦言“如今泛用性的AI還是不太夠。”他表示，全球都在等待真正的機器人“大腦”的誕生。

人形機器人“大腦”研發(fā)，無疑是一個很有意思的賽道。

彭志輝就對這個賽道十分感興趣。

彭志輝，圖源：“稚輝君”微博

作為曾經(jīng)的華為“天才少年”，彭志輝年薪一度高達200萬元。他離職創(chuàng)業(yè)，自然不同于一般的創(chuàng)業(yè)者。

他有著更高追求，其創(chuàng)立的智元公司沒跟隨同行、將重心放在機器人軀體上，而是放在機器人“大腦”上。

近期，智元公司發(fā)布了首個通用具身基座模型——智元啟元大模型Genie Operator-1（GO-1），標志著國內(nèi)機器人從單一功能向多場景泛化的技術(shù)突破。

GO-1看似回答了王興興的“泛用性的AI還是不太夠”的問題，但距真正的機器人“大腦”還有一段距離。

而彭志輝與智元機器人的“野心”：希望未來所有機器人都能共享同一個“大腦”——GO-1，或無法實現(xiàn)。

并非“首家”

人形機器人從來都不是新鮮事物。

過去幾十年，世界各地都有各種人形機器人研發(fā)出來。文藝作品也不停地演繹著人形機器人的“無所不能”，人們對這一形象十分熟悉。

但《刃辛機器人》了解到，我們生活生產(chǎn)中卻很少有人形機器人的應用。

如今零星“進廠打工”的，并非人形機器人，多為機械臂等各種形態(tài)的工業(yè)機器人，而且從事都是重復性、機械性的工作。

截至目前，人形機器人“炫耀性”作用遠大于實際作用。

王興興創(chuàng)辦宇樹科技之初，就沒有直接研發(fā)人形機器人，而是從雙足的機器狗產(chǎn)品開始。他在2009年就嘗試過做人形機器人，認為太復雜了，無法駕馭。

直到AI大模型的出現(xiàn)，為人形機器人帶來了新的想象力。

簡單來講，借助大模型，將語義理解能力和推理生成能力引入其中，就相當于給人形機器人裝上了“大腦”，能夠理解世界和人類，真正地為人類服務。

但，這僅僅存在于“想象”階段，如王興興所言，如今泛用性AI還不夠，即用于人形機器人的具身智能大模型并不成熟。

ChatGPT、Deepseek等AI大模型，是無法直接用到人形機器人上，為其充當“大腦”的。人形機器人要通往AGI，需要專門針對具身智能領(lǐng)域的多模態(tài)大模型 —— 具身智能大模型，來提升機器人在感知、決策、控制、交互等方面的能力。

具身智能大模型是基于AI技術(shù)打造，專門賦能人形機器人，幫助人形機器人實現(xiàn)在通用應用場景下的落的專用大模型。

ChatGPT、Deepseek等非具身智能大模型服務的對象是人類，輸出的內(nèi)容是給人看或者給人讀，更多還是在人機交互、內(nèi)容生成等方面展現(xiàn)價值。

具身智能大模型的服務對象是機器，其輸出的內(nèi)容是需要機器人能夠理解，并最終要轉(zhuǎn)化為具體可執(zhí)行動作的控制指令，從而與周圍環(huán)境進行交互，并做出各種動作。

智元機器人推出的GO-1，絕非國內(nèi)第一個具身智能大模型。在此之前，國內(nèi)一些機器人初創(chuàng)企業(yè)已經(jīng)開始推出自己的具身智能大模型。

譬如，有鹿機器人的Master 2000、若愚科技的九天大模型、千訣科技的千訣.機器人大模型、穹徹智能的Noematrix Brain、X square（自變量機器人）的Great Wall系列的WALL-A模型以及千尋智能的具身智能大模型……

GO-1僅僅是國內(nèi)首個通用具身基座模型。

所謂通用具身基座模型，采用模塊化架構(gòu)（如ViLLA框架），整合多模態(tài)大模型（VLM）、隱式規(guī)劃器和動作專家，支持跨本體適配和任務泛化，其重要的特點是泛用性。

簡而言之，GO-1是“啥都能干，但都不精”。

就像一個廚子，?能看菜譜學做菜（看人類視頻學習），今天炒川菜、明天做西餐（適配不同場景）?，甚至能用新買的廚具（跨本體硬件）。雖然做每道菜不是最頂尖的，但換菜單時不用重新買機器人（降低成本）。

陷“數(shù)據(jù)荒”

GO-1距離真正的人形機器人“大腦”有多遠？

首先，不可否認GO-1具有充當人形機器人“大腦”的潛力。

GO-1通過ViLLA架構(gòu)實現(xiàn)多模態(tài)學習，可利用人類視頻數(shù)據(jù)提升小樣本泛化能力，支持機器人從單一任務到開放場景的靈活切換。

例如，GO-1支持的智元機器人靈犀X2已能完成騎單車、縫葡萄等復雜任務，并初步具備自然語言交互能力。

這表明GO-1具備整合感知、決策和執(zhí)行能力，符合“大腦”的核心需求。

GO-1還突破了傳統(tǒng)預設程序的限制，可結(jié)合語義推理執(zhí)行動態(tài)指令?。

例如，靈犀X2能通過自然語言指令完成充電協(xié)作、家務輔助等任務，體現(xiàn)了從“工具”到“智能體”的轉(zhuǎn)變?。

其二，GO-1距離真正的人形機器人“大腦”還很遠。從智元公司對這一大模型的訓練過程，就可以得出這一結(jié)論。

當初，智元公司決定構(gòu)建人形機器人“大腦”之后，就發(fā)現(xiàn)門檻太高。

眾所周知，大模型的訓練是需要大量的數(shù)據(jù)投喂的。

ChatGPT、Deepseek等非具身智能大模型，在訓練過程“吃”下去的數(shù)據(jù)可謂不計其數(shù)。單就ChatGPT，就已消化了全球互聯(lián)網(wǎng)2/3的文本語料。

人形機器人“大腦”所需“投喂”的數(shù)據(jù)，更多的是動作數(shù)據(jù)，因為它們是需要像人一樣進行各種動作。

文本語料從互聯(lián)網(wǎng)中就可以獲得，但動作數(shù)據(jù)卻非常難找。

智元公司曾試圖尋找行業(yè)內(nèi)的開源數(shù)據(jù)庫，但發(fā)現(xiàn)高質(zhì)量、統(tǒng)一格式的數(shù)據(jù)幾乎不存在。

行業(yè)內(nèi)雖然開源了百萬條由真實機器人收集的訓練數(shù)據(jù)集，但是這些數(shù)據(jù)實際上由不同公司、不同型號規(guī)格的機器人采集，數(shù)據(jù)質(zhì)量較低，達不到智元公司的要求。

智元公司決定“笨鳥先飛”，采取“笨辦法”，于2023年9月建立了動作數(shù)據(jù)采集工廠。在工廠里一比一地模仿人類生活中的每一個動作，將其采集下來，形成數(shù)據(jù)，然后“喂”給大模型。

為此，他們搭建了家居、餐飲、商超、辦公和工業(yè)等五類應用場景中。

在不同場景中，數(shù)據(jù)采集員們手持設備，手把手地控制人形機器人完成抓、握、放等動作。有時采集員頭戴VR設備，精準地讓機器人模仿學習人類動作。

譬如，在臥室中，人形機器人乖巧地跟著采集員學習疊衣服。在餐桌前，機器人學著把餐具挨個擺放整齊，還要學會打餐各式菜肴，并且不會手抖。在商超收銀臺前，機器人一只手拿掃碼器，另一只手拿著商品掃碼。

采集“收銀”機器人的數(shù)據(jù)，圖源：36氪

人形機器人每完成一個動作，就能采集一套數(shù)據(jù)。這些數(shù)據(jù)聚集起來，上傳至云端，便被智元團隊喂給大模型，從而讓機器人真正掌握一項技能，比如沖咖啡、熨衣服等。

笨鳥先飛，談何容易？

僅一個倒水的動作，大模型就需要“吃”下上萬條數(shù)據(jù)才能學會。而據(jù)36氪前幾個月的報道，一位采集員每天僅采集約150條數(shù)據(jù)，工廠里的近百臺機器人日均采集條數(shù)據(jù)也才3至5萬條。

雖然僅僅幾個月，智元公司就積累了涉及217個任務的百萬條高質(zhì)量標準動作軌跡數(shù)據(jù)，規(guī)模全球最大。但是，這些動作數(shù)據(jù)，與ChatGPT“吃”下的全球互聯(lián)網(wǎng)2/3的文本語料的數(shù)量級相比，可謂少得可憐。

靠這些“少的可憐”的動作數(shù)據(jù)，GO-1這樣的具身智能大模型又何時能夠達到ChatGPT的聰明程度呢？

野心難實現(xiàn)

AI大語言模型，如ChatGPT，之所以表現(xiàn)得聰明，是因為在不斷“喂”其數(shù)據(jù)進行訓練后，量變引發(fā)質(zhì)變，使其在某個時間點，突然出現(xiàn)的、難以預測的、超越了模型初始設計和預期的智能行為或能力，即“智能涌現(xiàn)”現(xiàn)象。

業(yè)內(nèi)稱此為?尺度定律。即，隨著模型參數(shù)、訓練數(shù)據(jù)量和計算資源的指數(shù)級增長，模型的性能會以可預測的冪律（Power Law）方式提升?，甚至在某些任務中表現(xiàn)出“涌現(xiàn)”的智能能力。

具身智能大模型需要獲得ChatGPT這樣的聰明度，必須不斷“喂”動作數(shù)據(jù)。只要“喂”得足夠多，到某一天，具身智能大模型就會突然變得聰明起來，真的像真人“大腦”一樣了。

具身智能大模型需要“喂”多少數(shù)據(jù)，才能像真人“大腦”呢？

智元公司采取的采集動作數(shù)據(jù)的“笨辦法”，堪稱龜速。業(yè)內(nèi)人士坦言：“如果只靠我們一個工廠采集數(shù)據(jù)，采集1億條需要幾百年。”

目前，全球機器人動作數(shù)據(jù)相較于大語言模型的“核爆點”還差3-4個數(shù)量級。

智元公司目前想出的新對策，就是聯(lián)合同行一起采集數(shù)據(jù)。

智元公司首先對自己采集的數(shù)據(jù)開源，“不擔心因為別人拿走一些數(shù)據(jù)而被超越，另一方面也是希望有更多人成為同道中人。”大家一起采集數(shù)據(jù)。

GO-1的發(fā)布，就是為了解決數(shù)據(jù)不夠的問題。但是，這也隱藏了智元公司，以及其創(chuàng)始人彭志輝的一個野心，那就是“希望未來所有機器人都能共享同一個‘大腦’”，而這個大腦就是GO-1。

因為GO-1的一大特點是泛化性好，能在不同機器人本體上部署。大家一起采集的數(shù)據(jù)，可以通過GO-1這一通用具身基座模型共享。

GO-1作為首個通用具身基座模型，有著唯一性，若相關(guān)人形機器人公司沒有專用的具身智能模型，倒是可以共享數(shù)據(jù)。但是，如今很多人形機器人公司都有各自的具身智能模型，都在進行數(shù)據(jù)“投喂”，進行艱苦訓練，為何要與GO-1共享數(shù)據(jù)？

GO-1要變“聰明”，所需數(shù)據(jù)可不少。智元公司到底聯(lián)合多少家公司一起采集數(shù)據(jù)，才能符合?尺度定律，達到人形機器人“智能涌現(xiàn)”時刻呢？

僅靠幾家公司，顯然不行。哪怕聯(lián)合所有研發(fā)機器人“大腦”的公司，恐怕都不夠。

結(jié)語：或可借鑒自動駕駛訓練模式

國內(nèi)的智能新能源汽車發(fā)展迅速，L3級自動駕駛汽車開始量產(chǎn)。

汽車能進行自動駕駛，也經(jīng)過了大量相關(guān)數(shù)據(jù)“投喂”和訓練。僅僅在物理世界采集汽車行駛路測所需的數(shù)據(jù)，費時費力，而且無法完成。

據(jù)美國蘭德公司研究，自動駕駛汽車要保證絕對安全，需要110億英里（177億公里）的里程測試。假設由100輛車組成車隊，每年365天每天24小時不間歇以28英里每小時的平均速度進行測試，大概需要500年。

在激烈競爭中“存活”下來的車企，不可能采取這樣的“笨辦法”。它們的做法是仿真訓練，即通過數(shù)學建模的方式將自動駕駛實際的應用場景進行數(shù)字化還原，建立盡可能接近真實世界的系統(tǒng)模型，從而進行訓練。

仿真訓練的速度是物理世界路測的千倍、萬倍，這才使得自動駕駛發(fā)展如此迅速。

《刃辛機器人》認為，人形機器人的具身智能大模型，也可借助仿真訓練，更快地達到“智能涌現(xiàn)”時刻。

只是，相較于自動駕駛只需模擬道路及周邊環(huán)境等，具身智能大模型需要的仿真訓練設計場景則多得多，復雜得多。（文/刃辛機器人陳重山）

參考資料

[1] 《加緊建廠拼量產(chǎn)，上海具身智能“獨角獸”為何強推這條路》，上觀、文匯報，沈湫莎

[2] 《我們?nèi)タ戳酥窃獧C器人的“數(shù)采廠”，等等！這不是星球大戰(zhàn)片場嗎？》，36氪、智能涌現(xiàn)，田哲

[3] 《自動駕駛究竟需要什么樣的仿真？》，智車科技官方

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#人形機器人 #機器人大腦 #華為天才少年 #AI大模型

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務許可證：31120170006

增值電信業(yè)務經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋

▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

這位“天才少年”野心勃勃，要壟斷人形機器人的“大腦”？

掃碼下載澎湃新聞客戶端