李飛飛空間智能首個模型誕生！一張圖可生成交互式3D場景

澎湃新聞記者賈利略實習生馬小雨

2024-12-03 15:25

來源：澎湃新聞

? 未來2% >

作為AI領域影響力最大的女性和華人之一，AI學者、斯坦福大學教授李飛飛在當地時間12月2日公布了她第一個創業項目World Labs的成果——能用單張靜態圖片生成3D世界的AI產品。

雖然已有眾多AI工具可以將照片轉換為3D模型和場景，而World Labs稱，他們所生成場景的獨特之處在于它們具有交互性，而且是可修改的。

“（我們的技術）能讓你走進任何一張圖像，并以3D的形式對其進行探索。” World Labs在一篇博客文章中寫道。

紐約大學助理教授謝賽寧在社交平臺上表示，“想象是生成式的，控制是3D的。”

World Labs網站演示的視頻(03:06)

在World Labs網站的演示里，這些由AI生成的場景均通過瀏覽器實時渲染而成，用戶可以使用箭頭鍵或鍵盤（WASD）鍵移動，然后單擊并拖動鼠標實現交互，從而自由探索場景。具體來看，該AI工具配備了可操控的滑塊來調節模擬景深（DoF）與模擬推拉變焦（dolly zoom），當使用者將景深效果調至越強時，背景中的物體便會越發模糊，為整個視覺體驗增添了更多層次感與真實感。

World Labs官網演示的步驟

此外，該工具也支持調整攝像機的位置和視野、更改對象顏色，通過3D場景結構創建聚光燈特效、創建自動運行的動態效果等交互方式。

據了解，World Labs的系統屬于一類新興的人工智能范疇，即 “世界模型”，能夠模擬游戲和3D環境。不過，現有的多數模型存在著偽影和一致性方面的問題。例如，初創公司Decart的Minecraft模擬世界模型Oasis就存在分辨率低下、容易“遺忘”場景布局等問題。

World Labs提到，大多數生成模型預測的是像素，而預測3D場景則具有許多優勢，比如場景更加持久，一旦生成，它就會一直存在。即使把視線移開然后又回來，場景也不會改變。此外，用戶可以實時控制、實時移動場景。用戶可以仔細觀察花朵的細節，也可以偷看角落里露出的物體。

“大多數生成式AI工具生成的都是圖像或視頻等二維內容，” World Labs表示，“而生成三維內容能夠提升操控性和一致性。這將改變我們制作電影、游戲、模擬器以及物理世界其他數字呈現形式的方式。”

目前，World Labs已經對公眾開放了Waitlist候補名單申請，不過作為開發和測試的一部分，有的創作者已經受邀并將其整合到了現有的工作流程中。例如，內容創作者埃里克·索洛里奧（Eric Solorio）發現，這項技術完美地填補了他創作過程中的空白，可以“讓角色布置和精確的鏡頭調度變得更容易”。

不過，World Labs在博客中說明，目前披露的只是“3D原生生成AI未來的一個縮影”。AI工具仍有改進的空間，例如用戶的移動范圍仍然受限于較小的區域，一旦超出邊界就會遇到限制。有時還會出現渲染錯誤，例如物體之間會以不自然的方式混合在一起。

據Tech Crunch報道， World Labs已從包括AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等在內的投資者處籌集了2.3億美元的投資，現公司估值超過10億美元，計劃在2025年推出首款正式產品。

World Labs于今年1月成立，由李飛飛和賈斯汀·約翰遜（Justin Johnson）、克里斯托夫·拉斯納（Christoph Lassner）和本·米爾登霍爾（Ben Mildenhall）聯合創立，三人均在AI領域擁有豐富的經驗。其中賈斯汀·約翰遜是李飛飛的博士生，現為密歇根大學的助理教授，World Labs目前總部位于舊金山，擁有20名員工。

在李飛飛的構想里，“所有空間智能的生物所具備的行動能力，是與生俱來的。因為，它能夠將感知與行動進行關聯。”她曾表示，“如果想讓AI超越其自身當前的能力，我們需要的是，不僅僅能夠看到、會說話的AI，而且是一個可以行動的AI。”

然而，《連線》雜志的記者曾指出，World Labs的愿景與此前迅速消退的熱炒概念“元宇宙”有些相似。對此，World Labs的創始人則解釋說，元宇宙之所以短暫，是因為當時的熱潮基于一些有前景的硬件，但缺乏真正的互動內容，而他們認為，世界模型或能夠填補這一空白。

責任編輯：喻琰

圖片編輯：朱偉輝

校對：丁曉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#李飛飛 #AI教母 #空間智能