- +1
生數(shù)、智譜、智源談Sora:模型在預(yù)期之內(nèi),產(chǎn)品才是亮點(diǎn)
原創(chuàng) 蘇霍伊 甲子光年

Sora只是GPT-1。
作者|蘇霍伊
編輯|趙健
OpenAI科技“馬拉松”的第三天——鴿了近一年的Sora終于上線!
場面之火爆,Sora Turbo一經(jīng)發(fā)布服務(wù)器就被擠爆了。

很多視頻case已經(jīng)在網(wǎng)上傳播。對于Sora真實(shí)的“買家秀”效果,口碑評價(jià)出現(xiàn)了兩極分化。有人認(rèn)為,Sora代表了視頻生成的最強(qiáng)水平。但也有人認(rèn)為,Sora的表現(xiàn)并不及預(yù)期。
在今天舉辦的2024甲子引力年終盛典上,清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍,智譜CEO張鵬,以及北京智源人工智能研究院院長王仲遠(yuǎn)第一時(shí)間對Sora進(jìn)行了評價(jià)。
朱軍認(rèn)為,Sora正式上線所帶來的沖擊度,相比今年二月的首次發(fā)布已經(jīng)弱了很多。視頻生成模型在今年有了長足的發(fā)展,已經(jīng)完全不是Sora二月份剛發(fā)布時(shí)的階段。整體來說,Sora的發(fā)布有一些產(chǎn)品上亮點(diǎn),尤其是視頻編輯的能力。但在基礎(chǔ)模型能力的表現(xiàn)上其實(shí)沒有太多的亮點(diǎn),效果在預(yù)期之內(nèi),比如Sora的生成速度看上去還是挺長的,大概在分鐘級,而且成本也不低,這都可能會(huì)影響后續(xù)用戶的使用以及商業(yè)化的進(jìn)展。
張鵬表示:“Sora的效果離自己的預(yù)期有一點(diǎn)偏差。如果看技術(shù)指標(biāo),國內(nèi)有的視頻生成模型不比Sora差。”比如智譜發(fā)布的視頻生成模型產(chǎn)品清影,已經(jīng)可以支持生成4K分辨率的視頻了。
當(dāng)然視頻模型的比拼肯定不是簡單地對比參數(shù),而是如何產(chǎn)生實(shí)際的應(yīng)用、產(chǎn)生生產(chǎn)力。張鵬認(rèn)為,Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上,比如視頻編輯能力、工作流,這是面向用戶需求的轉(zhuǎn)變。
王仲遠(yuǎn)認(rèn)為Sora的上線基本符合預(yù)期,沒有年初發(fā)布時(shí)的驚艷效果。從產(chǎn)品上線時(shí)間來看,國內(nèi)公司也實(shí)際上已經(jīng)早于OpenAI做出了產(chǎn)品級的模型。今年智源發(fā)布的新模型Emu3也探索了下一代的技術(shù)路線,是一個(gè)包括文本、圖片、視頻在內(nèi)的原生多模態(tài)統(tǒng)一理解和生成模型。
從官網(wǎng)的介紹到用戶的體驗(yàn),總體看下來「甲子光年」最大的感受是OpenAI已經(jīng)不僅僅是一個(gè)模型公司,而是進(jìn)化為產(chǎn)品公司。Sora Turbo的亮點(diǎn)更偏重視頻編輯的產(chǎn)品設(shè)計(jì)。
OpenAI在今年顯然加強(qiáng)了產(chǎn)品層的投入。比如今年6月,前Instagram產(chǎn)品副總裁以及Twitter產(chǎn)品副總裁Kevin Weil加入OpenAI,擔(dān)任首席產(chǎn)品官。
人們經(jīng)常問AI時(shí)代的Killer App是什么?今天來看,“Sora+ChatGPT”或許就是最被忽略的killer app。
1.視頻版的GPT-1
北京時(shí)間12月10日凌晨,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)與Sora團(tuán)隊(duì)負(fù)責(zé)人比爾·皮布爾斯(Bill Peebles)、阿迪亞·拉梅什(Aditya Ramesh)一起進(jìn)行了20分鐘關(guān)于Sora的講解直播。

奧爾特曼在直播中將Sora稱之為視頻版的GPT-1,Sora是DALL·E和GPT模型的基礎(chǔ)上創(chuàng)建的。
Sora采用了擴(kuò)散模型(Diffusion Model),通過從初始“噪聲”中生成基礎(chǔ)視頻,并逐步去噪以生成高質(zhì)量畫面。這一過程依托Transformer架構(gòu),能夠一次性預(yù)測多個(gè)幀,確保畫面中主體的連續(xù)性,即使主體暫時(shí)脫離視野,也能保持一致。
此外Sora繼承了DALL·E 3的重新字幕技術(shù)(Re-captioning),為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述性字幕,增強(qiáng)了對用戶文本指令的忠實(shí)呈現(xiàn)能力。
Sora的訓(xùn)練數(shù)據(jù)集來自多種來源,包括:
公開數(shù)據(jù)集(Public Datasets):來自行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集及網(wǎng)絡(luò)爬蟲的數(shù)據(jù)。
專有數(shù)據(jù)(Proprietary Data):通過合作伙伴獲取的非公開數(shù)據(jù),例如與Shutterstock、Pond5的合作。
人工生成數(shù)據(jù)(Human-Generated Data):由AI培訓(xùn)師和紅隊(duì)成員提供的反饋。
奧爾特曼表示Sora Turbo開啟了AI模擬現(xiàn)實(shí)與交互的全新篇章。作為Sora的全新升級版本,它提供了多種視頻比例選項(xiàng),包括橫屏(16:9)、正方形(1:1)和豎屏(9:16),適應(yīng)不同的顯示需求和創(chuàng)意表達(dá)。同時(shí)Sora Turbo引入了多種高級編輯功能:
Remix(重混):用戶可以替換、刪除或重構(gòu)視頻中的元素;
Re-cut(重新切割):用戶可以尋找視頻中的最佳幀,并從此延展或循環(huán)剪輯;
混合:Sora Turbo可以將兩個(gè)視頻片段進(jìn)行無縫合并;
故事板剪輯:精確地指定每個(gè)幀的輸入,精確敘事控制,將照片轉(zhuǎn)化為視頻;
風(fēng)格預(yù)設(shè):用戶可以選擇預(yù)設(shè)的風(fēng)格來創(chuàng)建視頻,速設(shè)定視頻的視覺風(fēng)格。

Sora Turbo的效果展示
Sora有三種視頻生成模式:
文本到視頻(Text-to-Video)模式:Sora的核心功能,可以讓用戶通過輸入文本描述來生成完整的視頻。利用先進(jìn)的自然語言處理技術(shù)和生成模型,Sora能夠理解文本的含義,并將其轉(zhuǎn)化為具象的視覺內(nèi)容。這一模式適用于制作從簡短的短片到情節(jié)豐富的敘事視頻。
文本+圖像到視頻(Text+Image-to-Video)模式:在這個(gè)模式中,用戶不僅可以輸入文本描述,還可以上傳圖像來增強(qiáng)視頻生成的精確性。通過結(jié)合文本和圖像,Sora可以更準(zhǔn)確地捕捉并實(shí)現(xiàn)創(chuàng)作者的創(chuàng)意意圖,生成更符合視覺期望的視頻。這一功能尤其適用于需要在視頻中整合特定圖像元素的應(yīng)用場景,例如廣告制作和產(chǎn)品展示。
文本+視頻到視頻(Text+Video-to-Video)模式:Sora還提供了視頻編輯和轉(zhuǎn)換功能,允許用戶上傳已有視頻素材,并結(jié)合文本描述進(jìn)行修改或擴(kuò)展。這一模式使用戶能夠在現(xiàn)有視頻的基礎(chǔ)上添加新的情節(jié)、細(xì)節(jié),甚至創(chuàng)作出全新的版本或完全不同的內(nèi)容。例如,用戶可以對現(xiàn)有的廣告視頻進(jìn)行重新編輯,加入新的對話、場景或動(dòng)畫效果。
“我們希望通過Sora項(xiàng)目構(gòu)建能真正理解世界及物理(原理)的AI系統(tǒng)。我們才剛起步,Sora早期版本并不完美,偶爾有錯(cuò)誤,但它現(xiàn)在已經(jīng)能做到真正增強(qiáng)人類的創(chuàng)造力了。”皮布爾斯說道。
o1模型的核心貢獻(xiàn)者之一、OpenAI的研究科學(xué)家諾姆·布朗(Noam Brown)稱贊Sora是scale力量的最直觀展示。OpenAI的研究員威爾·德普(Will DePue)也在社交媒體上表示:“我們付出了巨大的努力才實(shí)現(xiàn)這一目標(biāo),Sora是非常直接和有趣的產(chǎn)品。”
ChatGPT Plus/Pro用戶可直接用Sora Turbo生成視頻。ChatGPT Pro計(jì)劃的用戶每月可生成500個(gè)視頻,時(shí)長最長可達(dá)20秒,最大分辨率為1080p;ChatGPT Plus用戶每月可以生成50個(gè)視頻,最大分辨率為720p,最長時(shí)長為5秒。
在推廣Sora Turbo的同時(shí),OpenAI對于技術(shù)的安全性和倫理使用也非常重視。他們對模型內(nèi)置了多項(xiàng)安全措施,例如加入C2PA元數(shù)據(jù)確保視頻的透明度,并驗(yàn)證視頻的來源。同時(shí)OpenAI還設(shè)立了紅隊(duì)測試,這些測試由信息誤導(dǎo)、仇恨內(nèi)容和偏見等領(lǐng)域的專家進(jìn)行。
“在過去的九個(gè)月中,我們觀察了來自60多個(gè)國家/地區(qū)300多名用戶的500000多個(gè)模型請求的用戶反饋。這些數(shù)據(jù)有助于增強(qiáng)模型行為并提高模型對安全協(xié)議的遵守程度。”O(jiān)penAI在文章中寫道。
2.Sora并不完美
Youtube科技評測網(wǎng)紅馬克斯·基思·布朗利(Marques Brownlee,網(wǎng)名MKBHD)也對Sora進(jìn)行了深度評測。

布朗利的評測視頻,來源:Youtube
布朗利發(fā)現(xiàn)Sora擅長粒子和流體模擬,“令人驚訝的是,Sora對流體動(dòng)力學(xué)的處理相當(dāng)出色,水的波動(dòng)和火焰的效果往往能達(dá)到令人信服的程度,即使煙霧效果可能還不夠完美”。但他同時(shí)也認(rèn)為,Sora完全不懂物理。
從官方展示的視頻也可以看出,Sora對“運(yùn)動(dòng)”的理解還不全面,有時(shí)甚至錯(cuò)誤百出。比如在一個(gè)猴子輪滑的的視頻中,可在看到猴子的右腿“毫無防備”地變成了左腿。

以及在提示詞為“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的視頻中,金毛獵犬的數(shù)量模糊,每個(gè)個(gè)體的形狀不穩(wěn),又時(shí)隱時(shí)現(xiàn),比如有的腦袋突然變成了尾巴。

對于這些不足,OpenAI表示:“Sora是一款強(qiáng)大的工具,使你能夠跨越物理限制,在多個(gè)場景中同時(shí)發(fā)揮創(chuàng)造力,探索各種全新的可能性。更重要的是,我們認(rèn)為它極大地?cái)U(kuò)展了幕后創(chuàng)作者的創(chuàng)作空間,賦予他們前所未有的能力去實(shí)現(xiàn)創(chuàng)意。”
直播最后,Sora團(tuán)隊(duì)也“潑了一盆冷水”來控制用戶預(yù)期:“如果你帶著這樣的期望來到 Sora,認(rèn)為只需點(diǎn)擊一個(gè)按鈕就能生成一部故事片,那么你可能抱有錯(cuò)誤的期望。”
END.
原標(biāo)題:《生數(shù)、智譜、智源談Sora:模型在預(yù)期之內(nèi),產(chǎn)品才是亮點(diǎn)|甲子光年》
本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司