- +1
谷歌DeepMind推出新的機器人AI模型
日前,谷歌DeepMind推出了兩款基于Gemini 2.0的新AI模型,旨在通過利用大語言模型的推理能力,完成復雜的現實世界任務,幫助機器人適應復雜環境。
第一款模型名為Gemini Robotics。據官方介紹,這是一個視覺-語言-動作模型。第二款模型是Gemini Robotics-ER(即具身推理)。該模型具備增強的空間理解能力,能讓機器人專家利用Gemini的具身推理(ER)能力運行自有程序。
谷歌DeepMind認為,要成為對人類有用的機器人AI模型,必須具備三大核心特質:通用性,能適應不同場景;交互性,能快速理解并響應指令或環境變化;以及靈巧性,能完成類似人手般精細的操作。新發布的這兩款模型能讓多種機器人執行比以往更廣泛的現實任務。
第一款模型Gemini Robotics在通用性、交互性和靈活性三個關鍵領域表現出色。它不僅能概括新場景,還更善于與人和環境互動,并且能夠執行更精確的物理任務,比如折疊一張紙或擰下瓶蓋。與前代模型相比,這款模型能理解更廣泛的自然語言指令范圍,并能根據輸入調整行為。
此外,它還能持續監控周邊環境,檢測環境或指令的變化,從而調整動作。谷歌DeepMind稱,這種可操作性將幫助人類在家庭、職場等場景中更好地與機器人協作。技術報告顯示,這款模型的綜合泛化性能是現有最先進視覺-語言-動作模型的兩倍以上。
第二款模型Gemini Robotics-ER(即具身推理)是一款先進的視覺-語言模,這款模型能夠“理解我們復雜而動態的世界”。例如,當你打包午餐盒并將食物放在面前的桌子上時,你需要知道所有東西的位置,以及如何打開午餐盒、抓取食物并將它們放在合適的位置。這正是Gemini Robotics-ER所要完成的推理過程。
在安全性方面,谷歌DeepMind研究人員維卡斯·辛德瓦尼(Vikas Sindhwani)在接受采訪時說,該公司正在開發一種“分層方法”,并稱Gemini Robotics-ER模型正在“被訓練用于評估在特定情境下潛在行為是否安全”。此外,該公司還在發布新的基準和框架,以助力人工智能行業的安全研究。去年,谷歌DeepMind推出了“機器人憲法”,這是一套受艾薩克·阿西莫夫啟發的規則,供機器人遵循。
谷歌DeepMind正在與Apptronik合作“打造下一代人形機器人”。它還向“受信任的測試人員”開放了Gemini Robotics-ER模型,包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司