- +1
智元機器人開源百萬真機數據集AgiBot World
高質量數據集是具身智能訓練的重要燃料,但當下缺乏真機數據成為人形機器人技術發展的一個瓶頸。12月30日,澎湃科技(www.kxwhcb.com)上海機器人初創公司智元機器人處獲悉,智元機器人聯合上海人工智能實驗室、國家地方共建人形機器人創新中心以及上海庫帕思,正式開源百萬真機數據集AgiBot World,旨在支持更泛化和更通用的機器人大模型訓練。智能機器人透露,后續該公司還將發布具身基座大模型。
據智元機器人介紹,AgiBot World是全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數據集。此前,具身智能訓練領域大規模的開源數據集是Google的Open X-Embodiment。相較于前者,AgiBot World長程數據規模高出10倍,場景范圍覆蓋面擴大100倍,數據質量也從實驗室級上升到工業級標準。
“在這個具身數據的世界里,機器人不再只是進行簡單的桌面任務,而是進入到人類日常生活的方方面面,既有抓取、放置、推、拉等基礎操作,也有攪拌、折疊、熨燙等復雜動作。”智元機器人相關負責人介紹說。
據了解,AgiBot World數據集誕生于智元自建的大規模數據采集工廠與應用實驗基地,空間總面積超過4000平方米,包含3000多種真實物品,復刻了家居(40%)、餐飲(20%)、工業(20%)、商超(10%)和辦公(10%)五大核心場景,收錄了80多種日常生活中的多樣化技能視頻。
當前,高質量的數據集對于當下人形機器人技術的發展尤為重要,但行業內高質量數據稀缺這一問題存在已久,有業內人士此前在接受澎湃科技采訪時曾指出,盡管語音和圖像數據可以通過互聯網獲取進行標注訓練,但機器人需要的特定場景數據極為稀缺。
在數據采集方面,一直以來,業界也正積極補齊數據短缺這一短板。比如今年8月,特斯拉對外高薪招募“數據采集員”;12月27日,北京國地共建具身智能機器人創新數據采集基地亮相,同日,上海提出“搭建超大規模城市級的模擬應用場景,率先賦能具身智能、自動駕駛等大模型實訓”。
據了解,AgiBot World是智元機器人本年度開源的第三個項目,相關數據將在HuggingFace、Github以及Agibot-world.com項目主頁上分批上傳。智元機器人方面稱,將陸續開源千萬仿真數據,以支持更泛化和更通用的大模型訓練;將發布具身基座大模型,可支持模型微調;發布全套工具鏈,實現采集、訓練和評測閉環。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司