當Sora能做真實的3D視頻，離它能設計戰艦也就不遠了

劉遠舉

2024-02-21 17:40

來源：澎湃新聞

? 澎湃商學院 >

今年春節，AI的新聞特別多。

2月9日，Google發布Gemini Ultra1.0，上線Gemini Advanced版本。據稱Gemini Advanced在第三方雙盲測試中擊敗了GPT-4，擁有極強的推理能力和長期記憶。

2月10日，OpenAI的CEO奧特曼欲將OpenAI、各路投資者、合同芯片制造商和電源供應商聯系起來，籌集7萬億美元的資金，打造龐大的芯片制造廠網絡，為OpenAI及其他客戶供應芯片。在過去幾周里，奧特曼一直在與美國、中東和亞洲的潛在投資者以及合作伙伴會面，并在爭取美國政府的批準。

2月14日，Nvdia推出本地AI聊天機器人Chat with RTX，這是為windows設計，可以在PC本地運行的ChatGPT。通過搜索PC本地的文件，分析在線流媒體視頻內容，進行推理。所有推理和檢索都在本地進行，不會有隱私泄露問題。

2月16日，Google推出基于MoE架構的Gemini Pro 1.5，創紀錄實現100萬token上下文能力，擁有強多模態理解推理能力，可實現44分鐘的無聲電影情節準確理解和分析。

當然，這些新聞中，最重要的是2月16日OpenAI推出的Sora。Sora可以通過依據簡單的自然語言描述，創造出長達60秒的視頻，并且能實現詳細場景、鏡頭連續切換以及表情生動的多角色。

其實，早在Sora之前，AI視頻生成模型領域就已經打得熱火朝天了。

最初是Runway和Midjourney你追我趕。2023年2月初，Runway首次推出Gen-1，并在6月份開放了第二代Gen-2。

Gen-2通過文本、圖片、文本+圖片，采用擴散模型，從完全由噪聲構成的起始圖像中逐漸消除噪聲，直接生成視頻，同時支持風格化、故事版、蒙版、渲染等方式，添加好萊塢式大片特效，僅需要幾分鐘即可完成所有操作。Gen-2的訓練數據包括2.4億張圖片、640萬個視頻剪輯片段以及數億個學習示例。Gen-2最大的一個突破是，克服了生成視頻AI領域的一致性難題，畫面變得更連貫，變形問題也得到了解決。某種程度上，Gen-2已經涉足到“了解世界的模型”這個層面，模型負責模擬世界，生成人類想要的東西。當然，Gen-2還存在模糊、顆粒感重、光線穿透差、幀率不穩定、視頻中動物、人物的動作詭異等問題。

9個月之后，也就是2023年11月29日，美國AI初創公司Pika labs發布了視頻生成模型Pika1.0。Pika1.0也可以由文本和圖像生成視頻。Pika1.0擁有強大的語義理解能力，用戶只需要輸入一句話，就可以生成想要的各種風格的視頻。輸入“馬斯克穿著太空服，3D動畫”的關鍵詞，一個身穿太空服的卡通馬斯克便出現了，身后還有SpaceX的火箭。

此外，Pika1.0還可編輯更改視頻，通過提示對背景環境、衣著道具等元素的增減或者更改；還可切換視頻風格，比如在黑白、動畫、3D等不同風格中轉化。

Pika1.0生成的視頻清晰度和連貫性，遠超市面上其他競爭對手，所以，這家僅成立半年的AI初創公司已經成為硅谷資本的“新寵”。

但僅僅兩個月之后，Sora的出現，顛覆了市場競爭格局。為什么Sora可以做到如此程度，與之前的諸多視頻生成模型相比，Sora到底有哪些優勢？

OpenAI Sora生成的視頻截圖

OpenAI Sora是一種結合了Diffusion模型和Transformer模型的技術。通過將視頻壓縮網絡將原始視頻壓縮到一個低維的潛在空間，并將這些表示分解為時空補丁，類似于Transformer的tokens，這樣的表示使得模型能夠有效地訓練在不同分辨率、持續時間和寬高比的視頻和圖像上。由此，OpenAI的Sora在視頻的長度、連續性、真實世界模擬上，都擁有了很大的優勢。

具體來說，Sora的優勢有以下幾個方面。

Sora可以生成長達一分鐘的視頻。不管是Pika1.0還是Runway2.0，都存在時間短、移動范圍小的問題。這兩個模型，默認生成的視頻都只有幾秒鐘。簡單地說，Sora是視頻，而其他家是動圖，Sora后來居上，擁有巨大的優勢。

Sora可以生成更多的畫面比例，更高的分辨率。Sora默認是1080P，而且其他平臺大多數默認的清晰度，都在1080P以下。

Sora可以支持向前以及向后擴展視頻，而其他家的只能向后擴展。也就是說，Sora不僅可以預測之后是什么，還可以推測之前是什么。Sora可以為一個視頻，創造出不同的開頭，最后都是以該視頻結尾。

Sora支持多個視頻的連接。Sora可以將兩個視頻連接在一起，生成一個新的流暢過度的視頻。這是Sora獨特的優勢。

Sora還可以轉換視頻的視角，如移位、旋轉等。轉換拍攝視角，要與物理世界的三維空間一致，這是一個具有相當大技術挑戰的優勢。

Sora生成的長視頻能保持時間上的一致性。簡單地說，就是一個人，一個物體，在視頻中是一致的。即使被遮擋或離開畫面，Sora也能保持它們的存在，并在后續不變。

在生成的視頻中，Sora還可以模擬視頻中物體間在真實世界應該出現的互動。比如，一個人吃一個漢堡，可以留下咬痕，看到被咬下了一塊。

Sora不僅可以模擬真實自然，還可以模擬人工過程。所謂人工過程，是指人類創造的一些世界，基于人類創造的不同于自然界的規律，來生成視頻。通過語言提示，可以向Sora輸入這些規則，Sora就可以根據這些規則，來模擬人工世界。比如，Sora可以模擬生成，《我的世界》這款游戲的視頻。這種能力使得Sora在仿真領域具有強大的潛力。

這幾方面的優勢，體現了Sora具備強大的語言理解和任務推斷能力，能處理復雜的視覺和控制任務。特別是后幾個特征，反映出Sora涌現出對真實物理世界的理解能力。換言之，AI似乎越來越懂我們這個世界了。

Sora將會給世界帶來的變化，最直接的，AI能把創意執行時的人力成本大大降低。

哪怕就在幾個月前，畫一張圖，對普通人來說也是一件專業的事，更不用說視頻。但現在，無需使用AE、Blender等專業軟件，就能實現特效。每一次創作門檻的降低，都會改變行業格局，開辟出全新的市場。未來，人類導演就是一個上帝般的存在，不再需要攝像機。只需要把演員、場景、道具的數字化給到AI，告訴AI想要什么風格、多少時長等要求，AI給出各種畫面選擇。

未來，隨著大模型生成式AI的爆發性發展，在各垂直領域場景，實際應用落地，相關行業會加速變革，與AI深入融合，其帶來的利潤也將持續刺激資本市場的期望，進而刺激算力基礎設施相關需求。這是一個產業、金融、技術相互促進的新的技術爆發階段，泡沫也是一個可以預期的東西。

但是，Sora帶來的改變不會僅僅局限于此。

從應用上看，Sora文字生成視頻的能力，只會涉及傳播、輿論行業，比如廣告、電影、視頻創作等等。如果僅僅從這個層面上看，就會認為Sora只是提供給人“看的東西”，只能娛樂人、傳播信息，卻不能為人類賦能，不能幫助人類獲得更高的生產效率，更新的生產力，幫助人類獲得更大的改造自然的能力。

從這個角度，有觀點認為，Sora的意義還不如ChatGPT。相比之下，ChatGPT可以成為一個生產工具。比如幫助程序員找出bug，幫助數學家獲得靈感，幫助工程師收集資料，搜索到更多潛在的方案，甚至生成潛在的，人類從未有過的方案。所以，就會有人認為，用一段文字生成視頻不要具備太多的價值。然而，這種看法是錯誤的。

首先，幫助人類提升生產效率，是一個全面的概念。衡量人類社會的總生產力、生產效率，并不能僅以工廠制造效率來計算，而是應該包括整個社會經濟活動。這當中，商業、信息流通，也起到了很大的作用。比如電商、社交平臺、智能手機，在商業領域，通過提升消費欲望、加快商業流通等方式，就能發展經濟，也就是提升整個社會的生產總量。

其次，信息本身就是制造業的本質之一。所謂制造業，就是在信息（知識、經驗、圖紙等）的指導下，改造物質。IT技術的發展，賦能實體經濟，極大地提升了物質生產的效率。所以，人工智能提升信息效率，也必然也會提升物質生產的效率。

最重要的是，當AI能夠理解、生成3D的世界，就會成為改變物質世界的生產手段。

有人說，人工智能分為多種，大模型只是其中之一，中國在自動駕駛人工智能領域，全球領先。但更可能發生的是，當一個AI涌現出對世界的理解，AI就會打通所有領域。比如，人類的駕駛是依靠理解來識別的。而現在的自動駕駛，因為無法理解世界，就必須要用雷達來補充Z軸信息。當AI能夠理解世界，自動駕駛的純視覺方案，也就沒有太大問題了。

再比如，人類對現實世界的設計，都是3D的，比如CAD設計圖，大到工廠軍艦，小到玩具零件。Sora生成視頻的一致性，視角的轉換，物體的互動，都體現了對3D世界的理解，那么，AI從生成娛樂視頻，進化為改造世界的手段，也只有一步之遙了。

英偉達科學家Jim Fan表示，OpenAI的Sora不再是一個創意玩具，而是一個數據驅動的物理引擎。他拿“咖啡杯中的海盜船”視頻進行了分析，在這個視頻中，模擬器生成了兩艘帶不同裝飾且精美的海盜船，在咖啡的波浪中起起伏伏。Jim Fan認為，這需要Sora在其潛在空間中解決文本到3D的隱含問題。從流體動力學上來看，咖啡的流動、船只周圍的泡沫都非常自然。流體模擬是計算機圖形學的一個完整子領域，傳統上需要非常復雜的算法和方程。雖然提示詞中場景的語義并不存在于現實世界中，但Sora仍然實現了我們所期望的正確物理規則。模擬器考慮到與海洋相比，杯子的體積較小，因此采用了移軸攝影視角，營造出一種微景觀的感覺。

當一個AI能夠理解流體力學，理解海盜船的構造，理解海盜船與海浪的相互作用，理解其中的物理規律，那么，這個AI能在制造業，能在人類改變世界的過程中，賦予人類什么力量，就幾乎是一個呼之欲出的答案了。換言之，在不遠的將來，人類或許可以輕易地根據新的需求，讓AI設計一艘新的戰艦，并實現無數次仿真，最后交出定型的3D設計圖紙。這一切，只需要在短短數月、數周甚至幾天內完成。

所以，當Sora等模型展現出對世界的理解，或將意味著人類朝著實現通用人工智能（AGI）邁進的重要一步，也意味著人類改變世界的效率會發生天翻地覆的變化。

（作者劉遠舉為上海金融與法律研究院研究員）

責任編輯：蔡軍劍

圖片編輯：蔣立冬

校對：徐亦嘉

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報

#劉遠舉 #Sora #大模型 #3D視頻技術