當(dāng)Sora能做真實(shí)的3D視頻，離它能設(shè)計(jì)戰(zhàn)艦也就不遠(yuǎn)了

劉遠(yuǎn)舉

2024-02-21 17:40

來源：澎湃新聞

今年春節(jié)，AI的新聞特別多。

2月9日，Google發(fā)布Gemini Ultra1.0，上線Gemini Advanced版本。據(jù)稱Gemini Advanced在第三方雙盲測(cè)試中擊敗了GPT-4，擁有極強(qiáng)的推理能力和長(zhǎng)期記憶。

2月10日，OpenAI的CEO奧特曼欲將OpenAI、各路投資者、合同芯片制造商和電源供應(yīng)商聯(lián)系起來，籌集7萬億美元的資金，打造龐大的芯片制造廠網(wǎng)絡(luò)，為OpenAI及其他客戶供應(yīng)芯片。在過去幾周里，奧特曼一直在與美國(guó)、中東和亞洲的潛在投資者以及合作伙伴會(huì)面，并在爭(zhēng)取美國(guó)政府的批準(zhǔn)。

2月14日，Nvdia推出本地AI聊天機(jī)器人Chat with RTX，這是為windows設(shè)計(jì)，可以在PC本地運(yùn)行的ChatGPT。通過搜索PC本地的文件，分析在線流媒體視頻內(nèi)容，進(jìn)行推理。所有推理和檢索都在本地進(jìn)行，不會(huì)有隱私泄露問題。

2月16日，Google推出基于MoE架構(gòu)的Gemini Pro 1.5，創(chuàng)紀(jì)錄實(shí)現(xiàn)100萬token上下文能力，擁有強(qiáng)多模態(tài)理解推理能力，可實(shí)現(xiàn)44分鐘的無聲電影情節(jié)準(zhǔn)確理解和分析。

當(dāng)然，這些新聞中，最重要的是2月16日OpenAI推出的Sora。Sora可以通過依據(jù)簡(jiǎn)單的自然語言描述，創(chuàng)造出長(zhǎng)達(dá)60秒的視頻，并且能實(shí)現(xiàn)詳細(xì)場(chǎng)景、鏡頭連續(xù)切換以及表情生動(dòng)的多角色。

其實(shí)，早在Sora之前，AI視頻生成模型領(lǐng)域就已經(jīng)打得熱火朝天了。

最初是Runway和Midjourney你追我趕。2023年2月初，Runway首次推出Gen-1，并在6月份開放了第二代Gen-2。

Gen-2通過文本、圖片、文本+圖片，采用擴(kuò)散模型，從完全由噪聲構(gòu)成的起始圖像中逐漸消除噪聲，直接生成視頻，同時(shí)支持風(fēng)格化、故事版、蒙版、渲染等方式，添加好萊塢式大片特效，僅需要幾分鐘即可完成所有操作。Gen-2的訓(xùn)練數(shù)據(jù)包括2.4億張圖片、640萬個(gè)視頻剪輯片段以及數(shù)億個(gè)學(xué)習(xí)示例。Gen-2最大的一個(gè)突破是，克服了生成視頻AI領(lǐng)域的一致性難題，畫面變得更連貫，變形問題也得到了解決。某種程度上，Gen-2已經(jīng)涉足到“了解世界的模型”這個(gè)層面，模型負(fù)責(zé)模擬世界，生成人類想要的東西。當(dāng)然，Gen-2還存在模糊、顆粒感重、光線穿透差、幀率不穩(wěn)定、視頻中動(dòng)物、人物的動(dòng)作詭異等問題。

9個(gè)月之后，也就是2023年11月29日，美國(guó)AI初創(chuàng)公司Pika labs發(fā)布了視頻生成模型Pika1.0。Pika1.0也可以由文本和圖像生成視頻。Pika1.0擁有強(qiáng)大的語義理解能力，用戶只需要輸入一句話，就可以生成想要的各種風(fēng)格的視頻。輸入“馬斯克穿著太空服，3D動(dòng)畫”的關(guān)鍵詞，一個(gè)身穿太空服的卡通馬斯克便出現(xiàn)了，身后還有SpaceX的火箭。

此外，Pika1.0還可編輯更改視頻，通過提示對(duì)背景環(huán)境、衣著道具等元素的增減或者更改；還可切換視頻風(fēng)格，比如在黑白、動(dòng)畫、3D等不同風(fēng)格中轉(zhuǎn)化。

Pika1.0生成的視頻清晰度和連貫性，遠(yuǎn)超市面上其他競(jìng)爭(zhēng)對(duì)手，所以，這家僅成立半年的AI初創(chuàng)公司已經(jīng)成為硅谷資本的“新寵”。

但僅僅兩個(gè)月之后，Sora的出現(xiàn)，顛覆了市場(chǎng)競(jìng)爭(zhēng)格局。為什么Sora可以做到如此程度，與之前的諸多視頻生成模型相比，Sora到底有哪些優(yōu)勢(shì)？

OpenAI Sora生成的視頻截圖

OpenAI Sora是一種結(jié)合了Diffusion模型和Transformer模型的技術(shù)。通過將視頻壓縮網(wǎng)絡(luò)將原始視頻壓縮到一個(gè)低維的潛在空間，并將這些表示分解為時(shí)空補(bǔ)丁，類似于Transformer的tokens，這樣的表示使得模型能夠有效地訓(xùn)練在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上。由此，OpenAI的Sora在視頻的長(zhǎng)度、連續(xù)性、真實(shí)世界模擬上，都擁有了很大的優(yōu)勢(shì)。

具體來說，Sora的優(yōu)勢(shì)有以下幾個(gè)方面。

Sora可以生成長(zhǎng)達(dá)一分鐘的視頻。不管是Pika1.0還是Runway2.0，都存在時(shí)間短、移動(dòng)范圍小的問題。這兩個(gè)模型，默認(rèn)生成的視頻都只有幾秒鐘。簡(jiǎn)單地說，Sora是視頻，而其他家是動(dòng)圖，Sora后來居上，擁有巨大的優(yōu)勢(shì)。

Sora可以生成更多的畫面比例，更高的分辨率。Sora默認(rèn)是1080P，而且其他平臺(tái)大多數(shù)默認(rèn)的清晰度，都在1080P以下。

Sora可以支持向前以及向后擴(kuò)展視頻，而其他家的只能向后擴(kuò)展。也就是說，Sora不僅可以預(yù)測(cè)之后是什么，還可以推測(cè)之前是什么。Sora可以為一個(gè)視頻，創(chuàng)造出不同的開頭，最后都是以該視頻結(jié)尾。

Sora支持多個(gè)視頻的連接。Sora可以將兩個(gè)視頻連接在一起，生成一個(gè)新的流暢過度的視頻。這是Sora獨(dú)特的優(yōu)勢(shì)。

Sora還可以轉(zhuǎn)換視頻的視角，如移位、旋轉(zhuǎn)等。轉(zhuǎn)換拍攝視角，要與物理世界的三維空間一致，這是一個(gè)具有相當(dāng)大技術(shù)挑戰(zhàn)的優(yōu)勢(shì)。

Sora生成的長(zhǎng)視頻能保持時(shí)間上的一致性。簡(jiǎn)單地說，就是一個(gè)人，一個(gè)物體，在視頻中是一致的。即使被遮擋或離開畫面，Sora也能保持它們的存在，并在后續(xù)不變。

在生成的視頻中，Sora還可以模擬視頻中物體間在真實(shí)世界應(yīng)該出現(xiàn)的互動(dòng)。比如，一個(gè)人吃一個(gè)漢堡，可以留下咬痕，看到被咬下了一塊。

Sora不僅可以模擬真實(shí)自然，還可以模擬人工過程。所謂人工過程，是指人類創(chuàng)造的一些世界，基于人類創(chuàng)造的不同于自然界的規(guī)律，來生成視頻。通過語言提示，可以向Sora輸入這些規(guī)則，Sora就可以根據(jù)這些規(guī)則，來模擬人工世界。比如，Sora可以模擬生成，《我的世界》這款游戲的視頻。這種能力使得Sora在仿真領(lǐng)域具有強(qiáng)大的潛力。

這幾方面的優(yōu)勢(shì)，體現(xiàn)了Sora具備強(qiáng)大的語言理解和任務(wù)推斷能力，能處理復(fù)雜的視覺和控制任務(wù)。特別是后幾個(gè)特征，反映出Sora涌現(xiàn)出對(duì)真實(shí)物理世界的理解能力。換言之，AI似乎越來越懂我們這個(gè)世界了。

Sora將會(huì)給世界帶來的變化，最直接的，AI能把創(chuàng)意執(zhí)行時(shí)的人力成本大大降低。

哪怕就在幾個(gè)月前，畫一張圖，對(duì)普通人來說也是一件專業(yè)的事，更不用說視頻。但現(xiàn)在，無需使用AE、Blender等專業(yè)軟件，就能實(shí)現(xiàn)特效。每一次創(chuàng)作門檻的降低，都會(huì)改變行業(yè)格局，開辟出全新的市場(chǎng)。未來，人類導(dǎo)演就是一個(gè)上帝般的存在，不再需要攝像機(jī)。只需要把演員、場(chǎng)景、道具的數(shù)字化給到AI，告訴AI想要什么風(fēng)格、多少時(shí)長(zhǎng)等要求，AI給出各種畫面選擇。

未來，隨著大模型生成式AI的爆發(fā)性發(fā)展，在各垂直領(lǐng)域場(chǎng)景，實(shí)際應(yīng)用落地，相關(guān)行業(yè)會(huì)加速變革，與AI深入融合，其帶來的利潤(rùn)也將持續(xù)刺激資本市場(chǎng)的期望，進(jìn)而刺激算力基礎(chǔ)設(shè)施相關(guān)需求。這是一個(gè)產(chǎn)業(yè)、金融、技術(shù)相互促進(jìn)的新的技術(shù)爆發(fā)階段，泡沫也是一個(gè)可以預(yù)期的東西。

但是，Sora帶來的改變不會(huì)僅僅局限于此。

從應(yīng)用上看，Sora文字生成視頻的能力，只會(huì)涉及傳播、輿論行業(yè)，比如廣告、電影、視頻創(chuàng)作等等。如果僅僅從這個(gè)層面上看，就會(huì)認(rèn)為Sora只是提供給人“看的東西”，只能娛樂人、傳播信息，卻不能為人類賦能，不能幫助人類獲得更高的生產(chǎn)效率，更新的生產(chǎn)力，幫助人類獲得更大的改造自然的能力。

從這個(gè)角度，有觀點(diǎn)認(rèn)為，Sora的意義還不如ChatGPT。相比之下，ChatGPT可以成為一個(gè)生產(chǎn)工具。比如幫助程序員找出bug，幫助數(shù)學(xué)家獲得靈感，幫助工程師收集資料，搜索到更多潛在的方案，甚至生成潛在的，人類從未有過的方案。所以，就會(huì)有人認(rèn)為，用一段文字生成視頻不要具備太多的價(jià)值。然而，這種看法是錯(cuò)誤的。

首先，幫助人類提升生產(chǎn)效率，是一個(gè)全面的概念。衡量人類社會(huì)的總生產(chǎn)力、生產(chǎn)效率，并不能僅以工廠制造效率來計(jì)算，而是應(yīng)該包括整個(gè)社會(huì)經(jīng)濟(jì)活動(dòng)。這當(dāng)中，商業(yè)、信息流通，也起到了很大的作用。比如電商、社交平臺(tái)、智能手機(jī)，在商業(yè)領(lǐng)域，通過提升消費(fèi)欲望、加快商業(yè)流通等方式，就能發(fā)展經(jīng)濟(jì)，也就是提升整個(gè)社會(huì)的生產(chǎn)總量。

其次，信息本身就是制造業(yè)的本質(zhì)之一。所謂制造業(yè)，就是在信息（知識(shí)、經(jīng)驗(yàn)、圖紙等）的指導(dǎo)下，改造物質(zhì)。IT技術(shù)的發(fā)展，賦能實(shí)體經(jīng)濟(jì)，極大地提升了物質(zhì)生產(chǎn)的效率。所以，人工智能提升信息效率，也必然也會(huì)提升物質(zhì)生產(chǎn)的效率。

最重要的是，當(dāng)AI能夠理解、生成3D的世界，就會(huì)成為改變物質(zhì)世界的生產(chǎn)手段。

有人說，人工智能分為多種，大模型只是其中之一，中國(guó)在自動(dòng)駕駛?cè)斯ぶ悄茴I(lǐng)域，全球領(lǐng)先。但更可能發(fā)生的是，當(dāng)一個(gè)AI涌現(xiàn)出對(duì)世界的理解，AI就會(huì)打通所有領(lǐng)域。比如，人類的駕駛是依靠理解來識(shí)別的。而現(xiàn)在的自動(dòng)駕駛，因?yàn)闊o法理解世界，就必須要用雷達(dá)來補(bǔ)充Z軸信息。當(dāng)AI能夠理解世界，自動(dòng)駕駛的純視覺方案，也就沒有太大問題了。

再比如，人類對(duì)現(xiàn)實(shí)世界的設(shè)計(jì)，都是3D的，比如CAD設(shè)計(jì)圖，大到工廠軍艦，小到玩具零件。Sora生成視頻的一致性，視角的轉(zhuǎn)換，物體的互動(dòng)，都體現(xiàn)了對(duì)3D世界的理解，那么，AI從生成娛樂視頻，進(jìn)化為改造世界的手段，也只有一步之遙了。

英偉達(dá)科學(xué)家Jim Fan表示，OpenAI的Sora不再是一個(gè)創(chuàng)意玩具，而是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。他拿“咖啡杯中的海盜船”視頻進(jìn)行了分析，在這個(gè)視頻中，模擬器生成了兩艘?guī)Р煌b飾且精美的海盜船，在咖啡的波浪中起起伏伏。Jim Fan認(rèn)為，這需要Sora在其潛在空間中解決文本到3D的隱含問題。從流體動(dòng)力學(xué)上來看，咖啡的流動(dòng)、船只周圍的泡沫都非常自然。流體模擬是計(jì)算機(jī)圖形學(xué)的一個(gè)完整子領(lǐng)域，傳統(tǒng)上需要非常復(fù)雜的算法和方程。雖然提示詞中場(chǎng)景的語義并不存在于現(xiàn)實(shí)世界中，但Sora仍然實(shí)現(xiàn)了我們所期望的正確物理規(guī)則。模擬器考慮到與海洋相比，杯子的體積較小，因此采用了移軸攝影視角，營(yíng)造出一種微景觀的感覺。

當(dāng)一個(gè)AI能夠理解流體力學(xué)，理解海盜船的構(gòu)造，理解海盜船與海浪的相互作用，理解其中的物理規(guī)律，那么，這個(gè)AI能在制造業(yè)，能在人類改變世界的過程中，賦予人類什么力量，就幾乎是一個(gè)呼之欲出的答案了。換言之，在不遠(yuǎn)的將來，人類或許可以輕易地根據(jù)新的需求，讓AI設(shè)計(jì)一艘新的戰(zhàn)艦，并實(shí)現(xiàn)無數(shù)次仿真，最后交出定型的3D設(shè)計(jì)圖紙。這一切，只需要在短短數(shù)月、數(shù)周甚至幾天內(nèi)完成。

所以，當(dāng)Sora等模型展現(xiàn)出對(duì)世界的理解，或?qū)⒁馕吨祟惓鴮?shí)現(xiàn)通用人工智能（AGI）邁進(jìn)的重要一步，也意味著人類改變世界的效率會(huì)發(fā)生天翻地覆的變化。

（作者劉遠(yuǎn)舉為上海金融與法律研究院研究員）

責(zé)任編輯：蔡軍劍

圖片編輯：蔣立冬

校對(duì)：徐亦嘉

澎湃新聞報(bào)料：021-962866

澎湃新聞，未經(jīng)授權(quán)不得轉(zhuǎn)載

我要舉報(bào)

#劉遠(yuǎn)舉 #Sora #大模型 #3D視頻技術(shù)