- +1
當(dāng)Sora能做真實(shí)的3D視頻,離它能設(shè)計(jì)戰(zhàn)艦也就不遠(yuǎn)了
今年春節(jié),AI的新聞特別多。
2月9日,Google發(fā)布Gemini Ultra1.0,上線Gemini Advanced版本。據(jù)稱Gemini Advanced在第三方雙盲測(cè)試中擊敗了GPT-4,擁有極強(qiáng)的推理能力和長(zhǎng)期記憶。
2月10日,OpenAI的CEO奧特曼欲將OpenAI、各路投資者、合同芯片制造商和電源供應(yīng)商聯(lián)系起來,籌集7萬億美元的資金,打造龐大的芯片制造廠網(wǎng)絡(luò),為OpenAI及其他客戶供應(yīng)芯片。在過去幾周里,奧特曼一直在與美國(guó)、中東和亞洲的潛在投資者以及合作伙伴會(huì)面,并在爭(zhēng)取美國(guó)政府的批準(zhǔn)。
2月14日,Nvdia推出本地AI聊天機(jī)器人Chat with RTX,這是為windows設(shè)計(jì),可以在PC本地運(yùn)行的ChatGPT。通過搜索PC本地的文件,分析在線流媒體視頻內(nèi)容,進(jìn)行推理。所有推理和檢索都在本地進(jìn)行,不會(huì)有隱私泄露問題。
2月16日,Google推出基于MoE架構(gòu)的Gemini Pro 1.5,創(chuàng)紀(jì)錄實(shí)現(xiàn)100萬token上下文能力,擁有強(qiáng)多模態(tài)理解推理能力,可實(shí)現(xiàn)44分鐘的無聲電影情節(jié)準(zhǔn)確理解和分析。
當(dāng)然,這些新聞中,最重要的是2月16日OpenAI推出的Sora。Sora可以通過依據(jù)簡(jiǎn)單的自然語言描述,創(chuàng)造出長(zhǎng)達(dá)60秒的視頻,并且能實(shí)現(xiàn)詳細(xì)場(chǎng)景、鏡頭連續(xù)切換以及表情生動(dòng)的多角色。
其實(shí),早在Sora之前,AI視頻生成模型領(lǐng)域就已經(jīng)打得熱火朝天了。
最初是Runway和Midjourney你追我趕。2023年2月初,Runway首次推出Gen-1,并在6月份開放了第二代Gen-2。
Gen-2通過文本、圖片、文本+圖片,采用擴(kuò)散模型,從完全由噪聲構(gòu)成的起始圖像中逐漸消除噪聲,直接生成視頻,同時(shí)支持風(fēng)格化、故事版、蒙版、渲染等方式,添加好萊塢式大片特效,僅需要幾分鐘即可完成所有操作。Gen-2的訓(xùn)練數(shù)據(jù)包括2.4億張圖片、640萬個(gè)視頻剪輯片段以及數(shù)億個(gè)學(xué)習(xí)示例。Gen-2最大的一個(gè)突破是,克服了生成視頻AI領(lǐng)域的一致性難題,畫面變得更連貫,變形問題也得到了解決。某種程度上,Gen-2已經(jīng)涉足到“了解世界的模型”這個(gè)層面,模型負(fù)責(zé)模擬世界,生成人類想要的東西。當(dāng)然,Gen-2還存在模糊、顆粒感重、光線穿透差、幀率不穩(wěn)定、視頻中動(dòng)物、人物的動(dòng)作詭異等問題。
9個(gè)月之后,也就是2023年11月29日,美國(guó)AI初創(chuàng)公司Pika labs發(fā)布了視頻生成模型Pika1.0。Pika1.0也可以由文本和圖像生成視頻。Pika1.0擁有強(qiáng)大的語義理解能力,用戶只需要輸入一句話,就可以生成想要的各種風(fēng)格的視頻。輸入“馬斯克穿著太空服,3D動(dòng)畫”的關(guān)鍵詞,一個(gè)身穿太空服的卡通馬斯克便出現(xiàn)了,身后還有SpaceX的火箭。
此外,Pika1.0還可編輯更改視頻,通過提示對(duì)背景環(huán)境、衣著道具等元素的增減或者更改;還可切換視頻風(fēng)格,比如在黑白、動(dòng)畫、3D等不同風(fēng)格中轉(zhuǎn)化。
Pika1.0生成的視頻清晰度和連貫性,遠(yuǎn)超市面上其他競(jìng)爭(zhēng)對(duì)手,所以,這家僅成立半年的AI初創(chuàng)公司已經(jīng)成為硅谷資本的“新寵”。
但僅僅兩個(gè)月之后,Sora的出現(xiàn),顛覆了市場(chǎng)競(jìng)爭(zhēng)格局。為什么Sora可以做到如此程度,與之前的諸多視頻生成模型相比,Sora到底有哪些優(yōu)勢(shì)?

OpenAI Sora生成的視頻截圖
OpenAI Sora是一種結(jié)合了Diffusion模型和Transformer模型的技術(shù)。通過將視頻壓縮網(wǎng)絡(luò)將原始視頻壓縮到一個(gè)低維的潛在空間,并將這些表示分解為時(shí)空補(bǔ)丁,類似于Transformer的tokens,這樣的表示使得模型能夠有效地訓(xùn)練在不同分辨率、持續(xù)時(shí)間和寬高比的視頻和圖像上。由此,OpenAI的Sora在視頻的長(zhǎng)度、連續(xù)性、真實(shí)世界模擬上,都擁有了很大的優(yōu)勢(shì)。
具體來說,Sora的優(yōu)勢(shì)有以下幾個(gè)方面。
Sora可以生成長(zhǎng)達(dá)一分鐘的視頻。不管是Pika1.0還是Runway2.0,都存在時(shí)間短、移動(dòng)范圍小的問題。這兩個(gè)模型,默認(rèn)生成的視頻都只有幾秒鐘。簡(jiǎn)單地說,Sora是視頻,而其他家是動(dòng)圖,Sora后來居上,擁有巨大的優(yōu)勢(shì)。
Sora可以生成更多的畫面比例,更高的分辨率。Sora默認(rèn)是1080P,而且其他平臺(tái)大多數(shù)默認(rèn)的清晰度,都在1080P以下。
Sora可以支持向前以及向后擴(kuò)展視頻,而其他家的只能向后擴(kuò)展。也就是說,Sora不僅可以預(yù)測(cè)之后是什么,還可以推測(cè)之前是什么。Sora可以為一個(gè)視頻,創(chuàng)造出不同的開頭,最后都是以該視頻結(jié)尾。
Sora支持多個(gè)視頻的連接。Sora可以將兩個(gè)視頻連接在一起,生成一個(gè)新的流暢過度的視頻。這是Sora獨(dú)特的優(yōu)勢(shì)。
Sora還可以轉(zhuǎn)換視頻的視角,如移位、旋轉(zhuǎn)等。轉(zhuǎn)換拍攝視角,要與物理世界的三維空間一致,這是一個(gè)具有相當(dāng)大技術(shù)挑戰(zhàn)的優(yōu)勢(shì)。
Sora生成的長(zhǎng)視頻能保持時(shí)間上的一致性。簡(jiǎn)單地說,就是一個(gè)人,一個(gè)物體,在視頻中是一致的。即使被遮擋或離開畫面,Sora也能保持它們的存在,并在后續(xù)不變。
在生成的視頻中,Sora還可以模擬視頻中物體間在真實(shí)世界應(yīng)該出現(xiàn)的互動(dòng)。比如,一個(gè)人吃一個(gè)漢堡,可以留下咬痕,看到被咬下了一塊。
Sora不僅可以模擬真實(shí)自然,還可以模擬人工過程。所謂人工過程,是指人類創(chuàng)造的一些世界,基于人類創(chuàng)造的不同于自然界的規(guī)律,來生成視頻。通過語言提示,可以向Sora輸入這些規(guī)則,Sora就可以根據(jù)這些規(guī)則,來模擬人工世界。比如,Sora可以模擬生成,《我的世界》這款游戲的視頻。這種能力使得Sora在仿真領(lǐng)域具有強(qiáng)大的潛力。
這幾方面的優(yōu)勢(shì),體現(xiàn)了Sora具備強(qiáng)大的語言理解和任務(wù)推斷能力,能處理復(fù)雜的視覺和控制任務(wù)。特別是后幾個(gè)特征,反映出Sora涌現(xiàn)出對(duì)真實(shí)物理世界的理解能力。換言之,AI似乎越來越懂我們這個(gè)世界了。
Sora將會(huì)給世界帶來的變化,最直接的,AI能把創(chuàng)意執(zhí)行時(shí)的人力成本大大降低。
哪怕就在幾個(gè)月前,畫一張圖,對(duì)普通人來說也是一件專業(yè)的事,更不用說視頻。但現(xiàn)在,無需使用AE、Blender等專業(yè)軟件,就能實(shí)現(xiàn)特效。每一次創(chuàng)作門檻的降低,都會(huì)改變行業(yè)格局,開辟出全新的市場(chǎng)。未來,人類導(dǎo)演就是一個(gè)上帝般的存在,不再需要攝像機(jī)。只需要把演員、場(chǎng)景、道具的數(shù)字化給到AI,告訴AI想要什么風(fēng)格、多少時(shí)長(zhǎng)等要求,AI給出各種畫面選擇。
未來,隨著大模型生成式AI的爆發(fā)性發(fā)展,在各垂直領(lǐng)域場(chǎng)景,實(shí)際應(yīng)用落地,相關(guān)行業(yè)會(huì)加速變革,與AI深入融合,其帶來的利潤(rùn)也將持續(xù)刺激資本市場(chǎng)的期望,進(jìn)而刺激算力基礎(chǔ)設(shè)施相關(guān)需求。這是一個(gè)產(chǎn)業(yè)、金融、技術(shù)相互促進(jìn)的新的技術(shù)爆發(fā)階段,泡沫也是一個(gè)可以預(yù)期的東西。
但是,Sora帶來的改變不會(huì)僅僅局限于此。
從應(yīng)用上看,Sora文字生成視頻的能力,只會(huì)涉及傳播、輿論行業(yè),比如廣告、電影、視頻創(chuàng)作等等。如果僅僅從這個(gè)層面上看,就會(huì)認(rèn)為Sora只是提供給人“看的東西”,只能娛樂人、傳播信息,卻不能為人類賦能,不能幫助人類獲得更高的生產(chǎn)效率,更新的生產(chǎn)力,幫助人類獲得更大的改造自然的能力。
從這個(gè)角度,有觀點(diǎn)認(rèn)為,Sora的意義還不如ChatGPT。相比之下,ChatGPT可以成為一個(gè)生產(chǎn)工具。比如幫助程序員找出bug,幫助數(shù)學(xué)家獲得靈感,幫助工程師收集資料,搜索到更多潛在的方案,甚至生成潛在的,人類從未有過的方案。所以,就會(huì)有人認(rèn)為,用一段文字生成視頻不要具備太多的價(jià)值。然而,這種看法是錯(cuò)誤的。
首先,幫助人類提升生產(chǎn)效率,是一個(gè)全面的概念。衡量人類社會(huì)的總生產(chǎn)力、生產(chǎn)效率,并不能僅以工廠制造效率來計(jì)算,而是應(yīng)該包括整個(gè)社會(huì)經(jīng)濟(jì)活動(dòng)。這當(dāng)中,商業(yè)、信息流通,也起到了很大的作用。比如電商、社交平臺(tái)、智能手機(jī),在商業(yè)領(lǐng)域,通過提升消費(fèi)欲望、加快商業(yè)流通等方式,就能發(fā)展經(jīng)濟(jì),也就是提升整個(gè)社會(huì)的生產(chǎn)總量。
其次,信息本身就是制造業(yè)的本質(zhì)之一。所謂制造業(yè),就是在信息(知識(shí)、經(jīng)驗(yàn)、圖紙等)的指導(dǎo)下,改造物質(zhì)。IT技術(shù)的發(fā)展,賦能實(shí)體經(jīng)濟(jì),極大地提升了物質(zhì)生產(chǎn)的效率。所以,人工智能提升信息效率,也必然也會(huì)提升物質(zhì)生產(chǎn)的效率。
最重要的是,當(dāng)AI能夠理解、生成3D的世界,就會(huì)成為改變物質(zhì)世界的生產(chǎn)手段。
有人說,人工智能分為多種,大模型只是其中之一,中國(guó)在自動(dòng)駕駛?cè)斯ぶ悄茴I(lǐng)域,全球領(lǐng)先。但更可能發(fā)生的是,當(dāng)一個(gè)AI涌現(xiàn)出對(duì)世界的理解,AI就會(huì)打通所有領(lǐng)域。比如,人類的駕駛是依靠理解來識(shí)別的。而現(xiàn)在的自動(dòng)駕駛,因?yàn)闊o法理解世界,就必須要用雷達(dá)來補(bǔ)充Z軸信息。當(dāng)AI能夠理解世界,自動(dòng)駕駛的純視覺方案,也就沒有太大問題了。
再比如,人類對(duì)現(xiàn)實(shí)世界的設(shè)計(jì),都是3D的,比如CAD設(shè)計(jì)圖,大到工廠軍艦,小到玩具零件。Sora生成視頻的一致性,視角的轉(zhuǎn)換,物體的互動(dòng),都體現(xiàn)了對(duì)3D世界的理解,那么,AI從生成娛樂視頻,進(jìn)化為改造世界的手段,也只有一步之遙了。
英偉達(dá)科學(xué)家Jim Fan表示,OpenAI的Sora不再是一個(gè)創(chuàng)意玩具,而是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。他拿“咖啡杯中的海盜船”視頻進(jìn)行了分析,在這個(gè)視頻中,模擬器生成了兩艘?guī)Р煌b飾且精美的海盜船,在咖啡的波浪中起起伏伏。Jim Fan認(rèn)為,這需要Sora在其潛在空間中解決文本到3D的隱含問題。從流體動(dòng)力學(xué)上來看,咖啡的流動(dòng)、船只周圍的泡沫都非常自然。流體模擬是計(jì)算機(jī)圖形學(xué)的一個(gè)完整子領(lǐng)域,傳統(tǒng)上需要非常復(fù)雜的算法和方程。雖然提示詞中場(chǎng)景的語義并不存在于現(xiàn)實(shí)世界中,但Sora仍然實(shí)現(xiàn)了我們所期望的正確物理規(guī)則。模擬器考慮到與海洋相比,杯子的體積較小,因此采用了移軸攝影視角,營(yíng)造出一種微景觀的感覺。
當(dāng)一個(gè)AI能夠理解流體力學(xué),理解海盜船的構(gòu)造,理解海盜船與海浪的相互作用,理解其中的物理規(guī)律,那么,這個(gè)AI能在制造業(yè),能在人類改變世界的過程中,賦予人類什么力量,就幾乎是一個(gè)呼之欲出的答案了。換言之,在不遠(yuǎn)的將來,人類或許可以輕易地根據(jù)新的需求,讓AI設(shè)計(jì)一艘新的戰(zhàn)艦,并實(shí)現(xiàn)無數(shù)次仿真,最后交出定型的3D設(shè)計(jì)圖紙。這一切,只需要在短短數(shù)月、數(shù)周甚至幾天內(nèi)完成。
所以,當(dāng)Sora等模型展現(xiàn)出對(duì)世界的理解,或?qū)⒁馕吨祟惓鴮?shí)現(xiàn)通用人工智能(AGI)邁進(jìn)的重要一步,也意味著人類改變世界的效率會(huì)發(fā)生天翻地覆的變化。
(作者劉遠(yuǎn)舉為上海金融與法律研究院研究員)





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司