- +1
李飛飛空間智能首個模型誕生!一張圖可生成交互式3D場景
作為AI領域影響力最大的女性和華人之一 ,AI學者、斯坦福大學教授李飛飛在當地時間12月2日公布了她第一個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。
雖然已有眾多AI工具可以將照片轉換為3D模型和場景,而World Labs稱,他們所生成場景的獨特之處在于它們具有交互性,而且是可修改的。
“(我們的技術)能讓你走進任何一張圖像,并以3D的形式對其進行探索。” World Labs在一篇博客文章中寫道。
紐約大學助理教授謝賽寧在社交平臺上表示,“想象是生成式的,控制是3D的。”

World Labs官網演示的步驟
此外,該工具也支持調整攝像機的位置和視野、更改對象顏色,通過3D場景結構創建聚光燈特效、創建自動運行的動態效果等交互方式。
據了解,World Labs的系統屬于一類新興的人工智能范疇,即 “世界模型”,能夠模擬游戲和3D環境。不過,現有的多數模型存在著偽影和一致性方面的問題。例如,初創公司Decart的Minecraft模擬世界模型Oasis就存在分辨率低下、容易“遺忘”場景布局等問題。
World Labs提到,大多數生成模型預測的是像素,而預測3D場景則具有許多優勢,比如場景更加持久,一旦生成,它就會一直存在。即使把視線移開然后又回來,場景也不會改變。此外,用戶可以實時控制、實時移動場景。用戶可以仔細觀察花朵的細節,也可以偷看角落里露出的物體。
“大多數生成式AI工具生成的都是圖像或視頻等二維內容,” World Labs表示,“而生成三維內容能夠提升操控性和一致性。這將改變我們制作電影、游戲、模擬器以及物理世界其他數字呈現形式的方式。”
目前,World Labs已經對公眾開放了Waitlist候補名單申請,不過作為開發和測試的一部分,有的創作者已經受邀并將其整合到了現有的工作流程中。例如,內容創作者埃里克·索洛里奧(Eric Solorio)發現,這項技術完美地填補了他創作過程中的空白,可以“讓角色布置和精確的鏡頭調度變得更容易”。
不過,World Labs在博客中說明,目前披露的只是“3D原生生成AI未來的一個縮影”。AI工具仍有改進的空間,例如用戶的移動范圍仍然受限于較小的區域,一旦超出邊界就會遇到限制。有時還會出現渲染錯誤,例如物體之間會以不自然的方式混合在一起。
據Tech Crunch報道, World Labs已從包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在內的投資者處籌集了2.3億美元的投資,現公司估值超過10億美元,計劃在2025年推出首款正式產品。
World Labs于今年1月成立,由李飛飛和賈斯汀·約翰遜(Justin Johnson)、克里斯托夫·拉斯納(Christoph Lassner)和本·米爾登霍爾(Ben Mildenhall)聯合創立,三人均在AI領域擁有豐富的經驗。其中賈斯汀·約翰遜是李飛飛的博士生,現為密歇根大學的助理教授,World Labs目前總部位于舊金山,擁有20名員工。
在李飛飛的構想里,“所有空間智能的生物所具備的行動能力,是與生俱來的。因為,它能夠將感知與行動進行關聯。”她曾表示,“如果想讓AI超越其自身當前的能力,我們需要的是,不僅僅能夠看到、會說話的AI,而且是一個可以行動的AI。”
然而,《連線》雜志的記者曾指出,World Labs的愿景與此前迅速消退的熱炒概念“元宇宙”有些相似。對此,World Labs的創始人則解釋說,元宇宙之所以短暫,是因為當時的熱潮基于一些有前景的硬件,但缺乏真正的互動內容,而他們認為,世界模型或能夠填補這一空白。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司