- +1
五大頂流人形機器人團隊談:冠軍機器人,如何進家庭?

作者 | 山竹
出品 | 鋅產(chǎn)業(yè)
機器人馬拉松、機器人足球賽、機器人技能大賽,乃至機器人格斗大賽……
過去這半年,稱得上是中國人形機器人史上最高光的半年。
盡管人形機器人不斷被質(zhì)疑落地問題——
高盛在年初調(diào)研宇樹后指出,“人形機器人的轉(zhuǎn)折點尚未到來”;
特斯拉前機器人項目負責人近日也表示,“Optimus這樣的人形機器人并不適合在工廠中工作”;
我們在各類機器人大賽中,更是直觀的看到了人形機器人頻頻摔倒和罷工……
但這些似乎并沒有影響人形機器人作為未來科技產(chǎn)業(yè)被重資押注。
從地方政府的投入來看,全國核心省市幾乎都已經(jīng)成立了人形機器人創(chuàng)新中心。
就在本周,湖北人形機器人創(chuàng)新中心官宣投用,目前這一創(chuàng)新中心已經(jīng)有9家機器人企業(yè)入駐,擬簽約和意向入駐企業(yè)17家,7000平米的創(chuàng)新中心涵蓋動作訓練、數(shù)據(jù)采集、應(yīng)用實踐、人才培訓幾個基地。
從商業(yè)化情況來看,已經(jīng)成為中國人形機器人企業(yè)最具代表性的存在的宇樹科技,此前曾官方回應(yīng),宇樹在2020年就實現(xiàn)了盈利,公司的四足機器人、人形機器人也已經(jīng)賣到了全球不少高校、研究所和機器人團隊。
近日,宇樹更是傳出了更名、或?qū)⑸鲜械南ⅲ顦淇萍?0后創(chuàng)始人王興興也成了杭州具身智能產(chǎn)業(yè)聯(lián)盟首任輪值董事長。
就“當下發(fā)展勢頭正猛,但未來商業(yè)化不明朗”的人形機器人,在2025北京智源大會上,宇樹科技創(chuàng)始人王興興、北京人形機器人創(chuàng)新中心總經(jīng)理熊友軍、銀河通用創(chuàng)始人王鶴、穹徹智能聯(lián)合創(chuàng)始人盧策吾,以及Physical Intelligence聯(lián)合創(chuàng)始人Karol Hausman——

這幾位產(chǎn)業(yè)派、學術(shù)派,以及創(chuàng)新中心的代表人物進行了一場人形機器人主題對話,談了各家機器人的最新進展,各類機器人大賽帶來的行業(yè)影響,以及VLA的價值和邊界。
就此次對話,我們就關(guān)鍵內(nèi)容整理如下:
01 冠軍機器人,也難進家庭
問:前幾天在CMG世界機器人大賽機甲格斗擂臺賽中,宇樹的機器人獲得了冠軍,請介紹一下這個冠軍機器人?
王興興:冠軍機器人是我們?nèi)ツ臧l(fā)布的G1。
無論是今年春晚上的機器人表演,還是近期的機器人格斗賽,我們是希望真正給大家展示一下當前全球人形機器人發(fā)展情況,并且?guī)诱麄€機器人行業(yè)發(fā)展。
目前,機器人還不能直接在家里或工廠里干活,這是全球機器人產(chǎn)業(yè)面臨的挑戰(zhàn)。
當然,我們是希望機器人可以真正去干活,但在機器人能夠真正干活之前,我們希望可以通過已經(jīng)達到的一些技術(shù)成果進行商業(yè)化拓展。
我相信機器人格斗大賽在未來一兩年會成為比較受歡迎的體育賽事,我覺得這是一件激動人心的事。

問:兩個月前,在北京首個人形機器人半程馬拉松比賽中,天工機器人奪冠,請介紹一下奪冠的天工和天工2.0的升級?
熊友軍:天工1.0在半程馬拉松比賽中跑出2小時40分的成績,被證明是最能跑的機器人。
天工2.0在1.0版本基礎(chǔ)上做了升級,我們希望它能更好用、做更多事,所以我們的升級重點在上肢——在機器人上肢增加了自由度和靈巧手,提升了負重能力。
北京人形機器人創(chuàng)新中心成立于2023年11月2日,是全國首個省級人形機器人創(chuàng)新中心,2024年10月升級為國家地方共建具身智能機器人創(chuàng)新中心。
我們天工2.0的升級是系統(tǒng)性的,具體有四個方面升級:

一是硬件平臺,之前1.0版本主打適應(yīng)草地、沙地、丘陵等多種復(fù)雜地形,現(xiàn)在的2.0版本可用于工廠或危險環(huán)境完成任務(wù);
二是軟件平臺,今年3月我們發(fā)布了第一個通用具身智能體“慧思開物”,一腦多機、一腦多能平臺,包括具身智能大腦和小腦,大腦負責人機交互、環(huán)境感知、意圖識別、任務(wù)規(guī)劃,小腦負責運動和執(zhí)行,并將執(zhí)行結(jié)果反饋給大腦,實現(xiàn)閉環(huán);
三是數(shù)據(jù)平臺,我們圍繞訓練具身智能體構(gòu)建了一個大型數(shù)據(jù)采集和機器人訓練中心,我們構(gòu)建了20多個虛實結(jié)合采集場景;
四是可靠性平臺,我們牽頭建設(shè)了北京的測試平臺。
問:銀河通用機器人的模型有何新進展?
王鶴:去年我們展示了人形機器人吸取盒狀物體,今年我們基于VLA技術(shù)打造了更貼近一般商超貨架場景的應(yīng)用。
我們輪式底盤的人形機器人基于自研端到端大模型,不依賴軌跡生成就可以從密集貨架上抓取物品,目前可以處理瓶裝、袋裝、薯片等多樣商品。
這個模型是閉環(huán)的,支持動態(tài)交互,我們的技術(shù)特點是使用低成本合成數(shù)據(jù)訓練的機器人模型。

問:穹徹智能目前有何新進展?
盧策吾:從產(chǎn)品角度來看,去年我們發(fā)布了穹徹大腦V1版本,我們今年7月馬上將會發(fā)布V2版本,這里體現(xiàn)了對物理世界的理解和交互。
力反饋對復(fù)雜、動態(tài)接觸、魯棒性極高的模仿人類下意識場景很關(guān)鍵,例如刮胡子需要持續(xù)接觸,力度要恰到好處,否則會刮傷或刮不干凈。
我們的技術(shù)已經(jīng)批量在食品加工行業(yè)落地,例如制作冰淇淋要求動作控制要精確到每毫秒,還要模仿人類手感。

我們的力反饋結(jié)合位置反饋的模型適用于高密度接觸場景,未來也可以拓展到生活場景,如照顧老人、幫人類擦臉等。
問:Physical Intelligence的具身智能機器人和模型有哪些最新進展?
Karol:π 0.5是我們引以為傲的模型,目前對于具身智能機器人來說,最大的挑戰(zhàn)是如何在從未見過的環(huán)境中執(zhí)行任務(wù)。
我們最終選擇了極具多樣性的家庭環(huán)境作為機器人的訓練環(huán)境,在家庭環(huán)境中,每個房間都和另一個房間都是完全不一樣的。
從實驗結(jié)果來看,我們的機器人只需在100個房間中完成訓練,就能泛化到第101個房間中,盡管成功率還不完美。

這表明具身智能機器人訓練對于數(shù)據(jù)需求已經(jīng)不高,泛化前景也很樂觀,但目前我們?nèi)蕴幱谠缙陔A段。
02 大賽的意義:科普、訓練、產(chǎn)業(yè)化
問:今年具身智能很火,也出現(xiàn)了很多機器人賽事,如何看機器人賽事活動的意義?
王興興:從春晚上表演節(jié)目到打格斗比賽,我認為這些賽事是向大眾展示機器人一個很好的平臺,可以讓大眾更早接觸到機器人。
我們現(xiàn)在讓機器人跳舞、打格斗賽,其實是希望通過AI技術(shù)讓機器人實現(xiàn)各種全身動作,跳舞、格斗只是其中的一部分,我們是希望機器人最終可以執(zhí)行端茶倒水、洗衣做飯等任務(wù)。
我一直相信,當具身智能發(fā)展到一定階段后,一個足夠智能的家用機器人一定可以跳舞,也可以打格斗比賽。

我們公司的終極目標是希望機器人能干活,但目前直接讓機器人進入家庭或工廠干活還不現(xiàn)實。
在這個終極目標沒有實現(xiàn)之前,我們可以通過表演和比賽展示機器人,讓大眾更了解機器人,并產(chǎn)生一些商業(yè)價值。
例如人形機器人租賃市場已經(jīng)很火爆,本身已經(jīng)帶來一些產(chǎn)業(yè)價值。
熊友軍:機器人比賽很有意義,尤其是北京即將在鳥巢舉辦世界人形機器人運動會,我認為它的意義體現(xiàn)在三個方面:
第一,它是機器人知識普及的盛會,通過比賽我們可以讓大眾對機器人發(fā)展狀況有一個全面的了解。
據(jù)我們所知,這次在鳥巢的機器人比賽會有短跑、長跑、障礙賽、接力賽、足球、舞蹈等大家喜聞樂見的項目,大家愿意看,看的過程中就會對機器人知識和發(fā)展狀況有比較深的了解,做了科技普及。
第二,它也是一個很好的技術(shù)訓練場,很多比賽場景源自于人類真實生活場景,如物流搬運、醫(yī)藥分揀、酒店服務(wù)場景,這些都是企業(yè)或行業(yè)提出的需求,對提升機器人技術(shù)有很大幫助。

第三,它是機器人企業(yè)與潛在客戶溝通的橋梁,通過這類比賽會加速機器人產(chǎn)業(yè)化。
Karol:國外的機器人比賽沒有中國這樣火爆,海外也有如Robot Cup機器人比賽,不過更多還是學術(shù)性比賽,我很期待看到這些賽事未來的發(fā)展。
問:人形機器人這些大賽與產(chǎn)業(yè)落地有怎樣的聯(lián)系?
王鶴:具身智能一個當下目標是——推動具身智能產(chǎn)業(yè)化。
雖然我們看到了很多炫酷的技能,但是要反思這樣的技能在新的環(huán)境里、新的目標物體下,以及挑剔的用戶和高成功率場景下能否成功執(zhí)行任務(wù)。
銀河通用和智源共同的思考是:一定要先將一些最重要的技能打通,我們這里主要關(guān)注移動、抓取、放置三項技能。
無論是在生活超市、工廠料庫,還是在外賣前置倉中,如果我們可以用人形機器人進行24小時服務(wù),這樣就可以形成具身智能走向產(chǎn)業(yè)化、服務(wù)人類、創(chuàng)造生產(chǎn)力的開始,推動人形機器人生產(chǎn)力時刻的到來。
一個好消息是,銀河通用的機器人在北京已經(jīng)開了7家無人藥店,機器人可以24小時分揀藥品并對接騎手,解決夜間急需用藥的需求,我們年底將會在北京、上海、深圳開100家藥店。

未來我們希望超市下訂單、車廠配料這些場景可以由機器人來實現(xiàn),我們也希望可以和后續(xù)賽事進行對接,通過賽事推動可落地的技能形成。
盧策吾:同意王鶴老師的觀點。
賽事是很好的起點,能看到機器人的性能,但下一步要讓機器人產(chǎn)生價值,能干活兒,需要進行技能比賽。
我們正在逐步將機器人的技能性提高,我們穹徹智能正在逐步將物理世界中持續(xù)接觸所需的力位反饋模型應(yīng)用到食品加工等場景中,未來我們希望可以看到更多關(guān)于機器人技能的比賽。
03 人形機器人,是不是最佳形態(tài)?
問:張拔院士指出,人形機器人不是具身智能和AGI的最佳路徑,通用機器人需要有硬件多樣性和軟件通用性。你如何看人形機器人的形態(tài)?
王興興:我并不堅持必須要做人形機器人。我們之前是做四足機器人的,從四足機器人到做人形機器人是順理成章的事。
就機器人的腿部而言,輪式底盤非常實用,那為什么現(xiàn)在大家還要做人形?
這是因為現(xiàn)在的AI大部分是基于人的數(shù)據(jù)采集和訓練,尤其是機器人的上半身保持與人類動作一致,便于AI數(shù)據(jù)采集和訓練。
此外,就跳舞、格斗等任務(wù)而言,如果機器人做成別的樣子,也就沒辦法執(zhí)行這些任務(wù)。

未來在AGI、通用AI出現(xiàn)后,會出現(xiàn)千奇百怪的機器人形態(tài),工廠、醫(yī)療等領(lǐng)域出現(xiàn)的機器人形態(tài)會是現(xiàn)在的百倍不止。
不過,目前的AI都是數(shù)據(jù)驅(qū)動的,長的像人的人形機器人在訓練和落地過程中會有很大優(yōu)勢。
熊友軍:具身智能載體多樣,不一定局限于人形,人形只是其中一種形態(tài),但從未來市場容量開看,我認為人形機器人是具身智能的最佳載體,具體可以從以下幾個方面來考慮:
首先,今天機器人不一定像人,但從市場應(yīng)用來看,商用服務(wù)和家庭市場會是一個很大的市場,今天走入工廠只是“開胃小菜”,人形機器人市場體量未來會很大。
其次,人形機器人便于人機交互,未來機器人走入家庭成為我們的伙伴、朋友,人形更容易讓人接受。
最后,人類環(huán)境是為人而設(shè)計的,人形機器人在部署和適應(yīng)環(huán)境過程中,更便于使用工具,也不需要過多環(huán)境改造。
雖然短期來看,人形機器人成本和技術(shù)不占優(yōu)勢,但長期來看,人形將會是最佳形態(tài)。
04 VLA:泛化可用數(shù)據(jù)改善,性能需要算法創(chuàng)新
問:VLA已經(jīng)成為自動駕駛的主流方案,但機器人操作空間更復(fù)雜,如何看VLA的泛化性?
王鶴:自動駕駛驗證了端到端方案有更好的擴展性,能夠通過數(shù)據(jù)驅(qū)動模型而非規(guī)則驅(qū)動,現(xiàn)在進入道路的自動駕駛車輛采用的就是這種端到端方法。
VLA的意義在于可以直接通過視覺觀察,通過自然語言下達命令,最終模型會不經(jīng)過任何中間環(huán)節(jié)、端到端的輸出動作。

從端到端角度來看,VLA模型可以充分吸收數(shù)據(jù)背后的知識并發(fā)揮出最大性能,不用受制于模塊化方案中間的錯誤和即連誤差,也不需要寫無窮無盡規(guī)則兜底的問題。
現(xiàn)在的VLA是研究熱點,但究竟要突破什么,大家想法各有不同。
有人希望可以將人類能夠做的所有事在VLA中快速實現(xiàn),然后形成基座模型,從這個角度來講,我們還是太著急了。
人類除了有視覺外,還有力覺、觸覺、嗅覺、味覺等,VLA只是起點,要想真正做到人類級別的具身智能,需要不斷融合新的模態(tài)。
VLA現(xiàn)在最適合做的是移動、抓取、放置,這幾個技能是以視覺為主,末端加一個觸覺或力覺傳感器就能執(zhí)行的很好,在工業(yè)、商業(yè)領(lǐng)域的很多場景可以得到廣泛應(yīng)用。
如果我們能將這樣的VLA先做好,在任何場景中不需要微調(diào)就能實現(xiàn)部署落地,這將會是見證具身智能高潮到來的起點。
盧策吾:VLA的本質(zhì)是:通過視覺理解世界,通過語言與人類溝通,通過動作改變世界。
VLA要做到通用,就需要壓縮它的不確定性,VLA相當于是個“火鍋底料”,現(xiàn)在只能“清湯寡水”,只能服務(wù)一部分人,要服務(wù)更多人的話,就需要不斷往里面加“東西”,需要不斷加入額外的信息,使得它能執(zhí)行更多任務(wù)。

例如,我們可以加入力反饋,很多時候人的下意識動作是不用動腦的,人擦桌子的時候不用每毫秒計算,有了力反饋后穩(wěn)定性和魯棒性會很高。
此外,我們?nèi)绻軌蚋玫乩斫馕锢硎澜纾涂梢赃M一步壓縮空間,所以我們在穹徹V2版本大腦里加入了“數(shù)字基因”——可以將世界產(chǎn)生的無窮無盡的數(shù)據(jù)資產(chǎn)加入其中,力反饋也帶來了新的訓練模型,使得數(shù)據(jù)量需求逐漸下降。
只要找到好的模態(tài)不斷壓縮空間,找到聰明的方式融到模型中,就可以將VLA一步一步往前推進。
問:跨本體的VLA在實踐中有何瓶頸?是數(shù)據(jù)規(guī)模問題還是算法問題?
Karol:目前最大的瓶頸是成功率不足,尤其在復(fù)雜、長時序、靈巧任務(wù)中。即使有無限數(shù)據(jù),現(xiàn)有算法也難以達到100%成功率,需新算法再突破。
幾個月前我認為泛化性是瓶頸,但π 0.5顯示泛化可通過數(shù)據(jù)改善,而性能更需算法創(chuàng)新。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司