谷歌DeepMind推出新的機器人AI模型

澎湃新聞記者喻琰

2025-03-13 18:22

來源：澎湃新聞

日前，谷歌DeepMind推出了兩款基于Gemini 2.0的新AI模型，旨在通過利用大語言模型的推理能力，完成復雜的現實世界任務，幫助機器人適應復雜環境。

第一款模型名為Gemini Robotics。據官方介紹，這是一個視覺-語言-動作模型。第二款模型是Gemini Robotics-ER（即具身推理）。該模型具備增強的空間理解能力，能讓機器人專家利用Gemini的具身推理（ER）能力運行自有程序。

谷歌DeepMind認為，要成為對人類有用的機器人AI模型，必須具備三大核心特質：通用性，能適應不同場景；交互性，能快速理解并響應指令或環境變化；以及靈巧性，能完成類似人手般精細的操作。新發布的這兩款模型能讓多種機器人執行比以往更廣泛的現實任務。

Gemini Robotics適用于不同種類的機器人。來源：谷歌(00:05)

第一款模型Gemini Robotics在通用性、交互性和靈活性三個關鍵領域表現出色。它不僅能概括新場景，還更善于與人和環境互動，并且能夠執行更精確的物理任務，比如折疊一張紙或擰下瓶蓋。與前代模型相比，這款模型能理解更廣泛的自然語言指令范圍，并能根據輸入調整行為。

此外，它還能持續監控周邊環境，檢測環境或指令的變化，從而調整動作。谷歌DeepMind稱，這種可操作性將幫助人類在家庭、職場等場景中更好地與機器人協作。技術報告顯示，這款模型的綜合泛化性能是現有最先進視覺-語言-動作模型的兩倍以上。

第二款模型Gemini Robotics-ER（即具身推理）是一款先進的視覺-語言模，這款模型能夠“理解我們復雜而動態的世界”。例如，當你打包午餐盒并將食物放在面前的桌子上時，你需要知道所有東西的位置，以及如何打開午餐盒、抓取食物并將它們放在合適的位置。這正是Gemini Robotics-ER所要完成的推理過程。

在安全性方面，谷歌DeepMind研究人員維卡斯·辛德瓦尼（Vikas Sindhwani）在接受采訪時說，該公司正在開發一種“分層方法”，并稱Gemini Robotics-ER模型正在“被訓練用于評估在特定情境下潛在行為是否安全”。此外，該公司還在發布新的基準和框架，以助力人工智能行業的安全研究。去年，谷歌DeepMind推出了“機器人憲法”，這是一套受艾薩克·阿西莫夫啟發的規則，供機器人遵循。

谷歌DeepMind正在與Apptronik合作“打造下一代人形機器人”。它還向“受信任的測試人員”開放了Gemini Robotics-ER模型，包括Agile Robots、Agility Robotics、Boston Dynamics和Enchanted Tools。

責任編輯：宦艷紅

圖片編輯：蔣立冬

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#機器人 #機器人模型