- +1
新質觀察|具身智能的時代已來,AI正在邁出關鍵一步

2024年7月6日,上海,2024世界人工智能大會,人工智能機器人伸出仿生機械手與參觀的小朋友握手。視覺中國 資料圖
1997年,IBM的深藍戰勝國際象棋大師加里·卡斯帕羅夫,震驚世界。2016年,“阿爾法圍棋”(AlphaGo)又讓圍棋冠軍李世石束手無策。從此,人工智能成為全球熱議的話題。但那時的AI,只是一個會計算的“頭腦”,它能分析棋盤局勢,卻摸不著棋子。
AlphaGo能夠在服務器上快速訓練數千場棋局,甚至擊敗世界冠軍。但它本質上仍是純粹的算法系統,缺乏在物理世界中執行動作的能力。每當它下棋時,必須依賴一位工作人員在場上幫它落子。這正是AI 發展的第一階段——信息智能。它擅長處理數據,卻無法直接影響現實。
如果 AI的發展是一場馬拉松,那么第一階段,我們造出了一個超凡的大腦。現在,它正在迎來第二階段——具身智能(Embodied AI),也就是物理智能。這一階段,AI不再局限于數據中心和屏幕,而是擁有了感知、長出了手腳,開始與物理世界交互。2025年,《政府工作報告》首次將“具身智能”寫入其中,提出建立未來產業投入增長機制,重點培育生物制造、量子科技、具身智能和6G等未來產業。這一政策信號,標志著具身智能正從實驗室走向現實,成為人工智能發展的重要方向。
從算法到動作,AI 邁出關鍵一步
想象一下,你走進一家餐廳,點了一杯咖啡。一臺機器人服務員優雅地端著托盤,將熱騰騰的咖啡放在你面前,沒有灑出一滴。這件事,一個普通人輕松能做到,但對AI來說,卻是一個天大的難題。
過去幾十年,計算機視覺、語音識別、自然語言處理等信息智能取得了驚人的進展。AI可以識別圖像、理解語言,甚至與人類流暢對話。然而,這些技術依然停留在數據世界。它們可以“看懂”一杯咖啡,但無法真正端起一杯咖啡。要讓AI走出屏幕、影響現實,它必須學會如何在物理世界中行動。
這正是物理智能面臨的核心難題。拿起一杯咖啡,這個看似簡單的動作,實則涉及復雜的傳感、肌肉控制、平衡調整。AI需要精準感知杯子的形狀、材質、重量,計算手指施加的力度,同時調整身體平衡,以確保液體不會灑出。而這些,對人類來說幾乎是本能,對AI而言,卻需要從零開始學習。
如果說,信息智能的AI是生活在“理想國”里的哲學家,那么物理智能的AI,就是要下地干活的工人。而現實世界,比數據世界復雜得多,也更加不可預測。
最典型的例子,就是波士頓動力(Boston Dynamics)的機器人。它們能奔跑,跳躍,甚至做后空翻,看上去仿佛已掌握了物理智能。但你如果讓它去開門,擰螺絲,或者在濕滑的地面上奔跑,它可能就會摔得四腳朝天。動作的流暢性不等于真正的靈活性,要讓機器人適應復雜的現實環境,仍然存在巨大挑戰。
為了讓機器人更好地執行日常任務,斯坦福大學李飛飛團隊提出了一種全身操作綜合框架——行為機器人套件(BRS)。該框架旨在提升機器人在家庭環境中的自主執行能力,使其能夠完成倒垃圾、整理衣物、刷馬桶等多樣化的家務任務。這項研究是具身智能突破的典型案例,它不僅讓機器人“理解”任務,還讓它們真正具備“動手”能力,使AI逐步邁向現實世界的高效執行者。
AI的關鍵,不只在于思考,更在于行動
信息智能讓AI成為“世界上最聰明的讀書人”,但僅僅會思考,無法改變世界。真正的變革,來自行動。具身智能,才是AI走向現實的關鍵。
回顧人類的進化歷程,我們是因為會思考而強大,還是因為會行動而強大?
牛頓發現了萬有引力定律,這是劃時代的突破;但如果沒有工程師們設計并制造出飛機引擎,我們依然無法飛翔于藍天。愛因斯坦提出了相對論,這是科學史上的偉大突破;但如果沒有物理學家和工程師的不斷努力,我們也無法享受到GPS技術帶來的便捷。知識塑造世界,但最終推動世界前行的,是實踐。
人工智能亦是如此。信息智能讓AI理解世界,物理智能讓AI改造世界。今天,我們可以用Deepseek生成一篇文章,用豆包AI畫一張圖。但我們還無法讓AI蓋一座房子、做一頓飯、或為病人完成一場手術。未來,具身智能的突破,才是真正讓AI進入日常生活的關鍵。
2025年3月,谷歌與機器人開發公司Apptronik合作,推出了兩個基于Gemini 2.0的機器人AI模型——Gemini Robotics和Gemini Robotics-Embodied Reasoning(ER),旨在幫助機器人執行比以往更多的現實任務。
這兩款模型的核心目標,是讓機器人不僅能聽懂指令,還能理解并適應新的環境和任務,這是物理智能發展的關鍵一步。測試表明,Gemini Robotics具備更強的泛化能力,能夠處理未經過訓練的任務,如折紙、將眼鏡放入盒中、打開瓶蓋等。相比之下,Gemini Robotics-ER版本更側重于空間感知和任務規劃,可供受信任的機器人開發者集成到自身系統中。這些技術突破,標志著機器人在現實環境中的適應能力和執行力取得了重要進展,使AI進一步從虛擬世界邁向物理世界。
具身智能面前的“三座大山”
AI要真正進入物理世界,最大的挑戰是什么?目前來看,主要有三座大山:感知能力、運動控制和學習能力。這三者的突破,正在讓具身智能從“實驗室玩具”蛻變為“全能助手”。
第一座山:感知能力的進化,從“盲人摸象”到“眼觀六路”
感知能力是機器人邁向現實世界的首要難題。人類的大腦,依靠眼睛、耳朵、皮膚等多種傳感器感知世界,而機器人也需要類似的“感官”——攝像頭、激光雷達、觸覺和壓力傳感器等等。但問題在于,人類的感知能力是動態、綜合且可適應的,而當前的AI感知系統通常是單一的、割裂的。
未來的機器人需要具備更強的泛化能力,能夠適應從未見過的任務,并且在新的環境中迅速理解和反應。例如,機器人需要能夠在面對不同物體、復雜場景或陌生環境時,快速識別并采取適當的行動。未來的家庭機器人管家需要在昏暗臥室避開滿地樂高,抱起嬰兒時自動調節力度,煮咖啡時根據香氣調整萃取時間。這要求AI具備真正的全模態感知能力,讓機器人像人類一樣“眼耳鼻舌身意”俱全,在真實世界中精準感知、靈活應對。
第二座山:運動控制的革命,從“機械舞者”到“靈活工匠”
如果說感知能力決定了機器人能“看見”世界,那么運動控制決定了它能否與世界互動。你有沒有注意到,今天的機器人能做許多事情,但它們的動作總顯得有些生硬。這主要是因為人類的運動控制非常靈活,我們的肌肉、神經系統能夠實時調整,而現有的AI運動系統仍顯得粗糙。人類行走時,每步涉及200多塊肌肉的毫秒級協調,而機器人要實現這種行云流水的動作,必須突破動態平衡、精細操作和能量效率三重難關。
隨著技術的進步,機器人在動作控制方面的靈活性也在不斷提升。未來的機器人能夠精細地完成一些復雜的任務,如折紙、拿起易碎物品,甚至像人類一樣操作物品。要實現這一點,機器人不僅需要精準的動作控制,還需要對周圍環境做出實時的感知和調整。這種靈活性將使機器人更好地適應真實世界中的多變場景,執行需要高度協調和精密操作的任務。只有真正做到這一點,機器人才能適應真實世界的多變場景,從流水線上的機械臂,進化為可以勝任各種精細任務的“靈活工匠”。
第三座山:學習能力的蛻變,從“死記硬背”到“見機行事”
學習能力是機器人面臨的第三大挑戰。人類的學習,往往是通過試錯、經驗積累和直覺判斷等多種方式結合的,而現有的AI雖然可以通過強化學習來訓練動作,但它們仍然缺乏真正的“直覺”和“經驗”,使得它們在面對環境變化時常常無法應對。
未來的機器人需要具備更強的自適應學習能力,能夠通過日常對話或指令理解,不斷調整自己的行為,并根據環境的變化不斷優化自己的操作方式。這種持續學習和動態適應的能力,才能讓機器人在復雜的現實世界中真正勝任任務,而不僅僅是按照預設程序執行操作。真正的智能,不是存儲在數據庫里的代碼,而是在物理交互中涌現的生命力。
這些突破意味著,未來的機器人將不僅僅是單純的工具,而是具備感知、行動、學習和適應能力的智能體。隨著技術的不斷發展,AI將逐漸從云端算力堆砌的“數字幽靈”,進化為扎根現實世界的“硅基生命體”。
AI的邊界,還能延展到何處?
信息智能,讓AI變得聰明;物理智能,讓AI具備力量。但AI的終點,并非只是更強的計算能力或更靈活的肢體,而是邁向更高級的第三階段——生物智能。
MIT實驗室正在探索將神經細胞與芯片結合的技術,而中國科學院的研究團隊已成功使機器人通過腦機接口“感知”虛擬疼痛。這些探索或許意味著,AI正在向生命的復雜性靠近。未來的AI將不再僅僅是冷冰冰的機器,而是像人類生命一樣思考、學習、適應,甚至自主進化。
然而,生物智能仍是遙遠的第三階段。今天,我們才剛剛踏入第二階段——具身智能的門檻。讓AI具備真正的行動力,讓它能夠理解、感知、適應現實世界,這一過程可能比我們預想的更漫長。歷史上,每一次技術革命,都是從思想到行動的演進。人類用了幾千年,從哲學的思辨走向科技的實踐,從構想工具到掌握工具,再到成為工具的創造者。而AI,正在沿著同樣的路徑前進。
唯一的問題是,我們準備好迎接這個“站起來的AI”了嗎?
(作者胡逸為數據工作者,著有《未來可期:與人工智能同行》一書)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司