下載客戶端

登錄

生數(shù)、智譜、智源談Sora：模型在預(yù)期之內(nèi)，產(chǎn)品才是亮點(diǎn)

2024-12-12 17:48

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 蘇霍伊甲子光年

Sora只是GPT-1。

作者｜蘇霍伊

編輯｜趙健

OpenAI科技“馬拉松”的第三天——鴿了近一年的Sora終于上線！

場面之火爆，Sora Turbo一經(jīng)發(fā)布服務(wù)器就被擠爆了。

很多視頻case已經(jīng)在網(wǎng)上傳播。對于Sora真實(shí)的“買家秀”效果，口碑評價(jià)出現(xiàn)了兩極分化。有人認(rèn)為，Sora代表了視頻生成的最強(qiáng)水平。但也有人認(rèn)為，Sora的表現(xiàn)并不及預(yù)期。

在今天舉辦的2024甲子引力年終盛典上，清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍，智譜CEO張鵬，以及北京智源人工智能研究院院長王仲遠(yuǎn)第一時(shí)間對Sora進(jìn)行了評價(jià)。

朱軍認(rèn)為，Sora正式上線所帶來的沖擊度，相比今年二月的首次發(fā)布已經(jīng)弱了很多。視頻生成模型在今年有了長足的發(fā)展，已經(jīng)完全不是Sora二月份剛發(fā)布時(shí)的階段。整體來說，Sora的發(fā)布有一些產(chǎn)品上亮點(diǎn)，尤其是視頻編輯的能力。但在基礎(chǔ)模型能力的表現(xiàn)上其實(shí)沒有太多的亮點(diǎn)，效果在預(yù)期之內(nèi)，比如Sora的生成速度看上去還是挺長的，大概在分鐘級，而且成本也不低，這都可能會(huì)影響后續(xù)用戶的使用以及商業(yè)化的進(jìn)展。

張鵬表示：“Sora的效果離自己的預(yù)期有一點(diǎn)偏差。如果看技術(shù)指標(biāo)，國內(nèi)有的視頻生成模型不比Sora差。”比如智譜發(fā)布的視頻生成模型產(chǎn)品清影，已經(jīng)可以支持生成4K分辨率的視頻了。

當(dāng)然視頻模型的比拼肯定不是簡單地對比參數(shù)，而是如何產(chǎn)生實(shí)際的應(yīng)用、產(chǎn)生生產(chǎn)力。張鵬認(rèn)為，Sora這次發(fā)布把很大的精力放在了產(chǎn)品而非模型上，比如視頻編輯能力、工作流，這是面向用戶需求的轉(zhuǎn)變。

王仲遠(yuǎn)認(rèn)為Sora的上線基本符合預(yù)期，沒有年初發(fā)布時(shí)的驚艷效果。從產(chǎn)品上線時(shí)間來看，國內(nèi)公司也實(shí)際上已經(jīng)早于OpenAI做出了產(chǎn)品級的模型。今年智源發(fā)布的新模型Emu3也探索了下一代的技術(shù)路線，是一個(gè)包括文本、圖片、視頻在內(nèi)的原生多模態(tài)統(tǒng)一理解和生成模型。

從官網(wǎng)的介紹到用戶的體驗(yàn)，總體看下來「甲子光年」最大的感受是OpenAI已經(jīng)不僅僅是一個(gè)模型公司，而是進(jìn)化為產(chǎn)品公司。Sora Turbo的亮點(diǎn)更偏重視頻編輯的產(chǎn)品設(shè)計(jì)。

OpenAI在今年顯然加強(qiáng)了產(chǎn)品層的投入。比如今年6月，前Instagram產(chǎn)品副總裁以及Twitter產(chǎn)品副總裁Kevin Weil加入OpenAI，擔(dān)任首席產(chǎn)品官。

人們經(jīng)常問AI時(shí)代的Killer App是什么？今天來看，“Sora+ChatGPT”或許就是最被忽略的killer app。

1.視頻版的GPT-1

北京時(shí)間12月10日凌晨，OpenAI CEO 薩姆·奧爾特曼（Sam Altman）與Sora團(tuán)隊(duì)負(fù)責(zé)人比爾·皮布爾斯（Bill Peebles）、阿迪亞·拉梅什（Aditya Ramesh）一起進(jìn)行了20分鐘關(guān)于Sora的講解直播。

奧爾特曼在直播中將Sora稱之為視頻版的GPT-1，Sora是DALL·E和GPT模型的基礎(chǔ)上創(chuàng)建的。

Sora采用了擴(kuò)散模型（Diffusion Model），通過從初始“噪聲”中生成基礎(chǔ)視頻，并逐步去噪以生成高質(zhì)量畫面。這一過程依托Transformer架構(gòu)，能夠一次性預(yù)測多個(gè)幀，確保畫面中主體的連續(xù)性，即使主體暫時(shí)脫離視野，也能保持一致。

此外Sora繼承了DALL·E 3的重新字幕技術(shù)（Re-captioning），為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述性字幕，增強(qiáng)了對用戶文本指令的忠實(shí)呈現(xiàn)能力。

Sora的訓(xùn)練數(shù)據(jù)集來自多種來源，包括：

公開數(shù)據(jù)集（Public Datasets）：來自行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集及網(wǎng)絡(luò)爬蟲的數(shù)據(jù)。

專有數(shù)據(jù)（Proprietary Data）：通過合作伙伴獲取的非公開數(shù)據(jù)，例如與Shutterstock、Pond5的合作。

人工生成數(shù)據(jù)（Human-Generated Data）：由AI培訓(xùn)師和紅隊(duì)成員提供的反饋。

奧爾特曼表示Sora Turbo開啟了AI模擬現(xiàn)實(shí)與交互的全新篇章。作為Sora的全新升級版本，它提供了多種視頻比例選項(xiàng)，包括橫屏（16:9）、正方形（1:1）和豎屏（9:16），適應(yīng)不同的顯示需求和創(chuàng)意表達(dá)。同時(shí)Sora Turbo引入了多種高級編輯功能：

Remix（重混）：用戶可以替換、刪除或重構(gòu)視頻中的元素；

Re-cut（重新切割）：用戶可以尋找視頻中的最佳幀，并從此延展或循環(huán)剪輯；

混合：Sora Turbo可以將兩個(gè)視頻片段進(jìn)行無縫合并；

故事板剪輯：精確地指定每個(gè)幀的輸入，精確敘事控制，將照片轉(zhuǎn)化為視頻；

風(fēng)格預(yù)設(shè)：用戶可以選擇預(yù)設(shè)的風(fēng)格來創(chuàng)建視頻，速設(shè)定視頻的視覺風(fēng)格。

Sora Turbo的效果展示

Sora有三種視頻生成模式：

文本到視頻（Text-to-Video）模式：Sora的核心功能，可以讓用戶通過輸入文本描述來生成完整的視頻。利用先進(jìn)的自然語言處理技術(shù)和生成模型，Sora能夠理解文本的含義，并將其轉(zhuǎn)化為具象的視覺內(nèi)容。這一模式適用于制作從簡短的短片到情節(jié)豐富的敘事視頻。

文本+圖像到視頻（Text+Image-to-Video）模式：在這個(gè)模式中，用戶不僅可以輸入文本描述，還可以上傳圖像來增強(qiáng)視頻生成的精確性。通過結(jié)合文本和圖像，Sora可以更準(zhǔn)確地捕捉并實(shí)現(xiàn)創(chuàng)作者的創(chuàng)意意圖，生成更符合視覺期望的視頻。這一功能尤其適用于需要在視頻中整合特定圖像元素的應(yīng)用場景，例如廣告制作和產(chǎn)品展示。

文本+視頻到視頻（Text+Video-to-Video）模式：Sora還提供了視頻編輯和轉(zhuǎn)換功能，允許用戶上傳已有視頻素材，并結(jié)合文本描述進(jìn)行修改或擴(kuò)展。這一模式使用戶能夠在現(xiàn)有視頻的基礎(chǔ)上添加新的情節(jié)、細(xì)節(jié)，甚至創(chuàng)作出全新的版本或完全不同的內(nèi)容。例如，用戶可以對現(xiàn)有的廣告視頻進(jìn)行重新編輯，加入新的對話、場景或動(dòng)畫效果。

“我們希望通過Sora項(xiàng)目構(gòu)建能真正理解世界及物理（原理）的AI系統(tǒng)。我們才剛起步，Sora早期版本并不完美，偶爾有錯(cuò)誤，但它現(xiàn)在已經(jīng)能做到真正增強(qiáng)人類的創(chuàng)造力了。”皮布爾斯說道。

o1模型的核心貢獻(xiàn)者之一、OpenAI的研究科學(xué)家諾姆·布朗（Noam Brown）稱贊Sora是scale力量的最直觀展示。OpenAI的研究員威爾·德普（Will DePue）也在社交媒體上表示：“我們付出了巨大的努力才實(shí)現(xiàn)這一目標(biāo)，Sora是非常直接和有趣的產(chǎn)品。”

ChatGPT Plus/Pro用戶可直接用Sora Turbo生成視頻。ChatGPT Pro計(jì)劃的用戶每月可生成500個(gè)視頻，時(shí)長最長可達(dá)20秒，最大分辨率為1080p；ChatGPT Plus用戶每月可以生成50個(gè)視頻，最大分辨率為720p，最長時(shí)長為5秒。

在推廣Sora Turbo的同時(shí)，OpenAI對于技術(shù)的安全性和倫理使用也非常重視。他們對模型內(nèi)置了多項(xiàng)安全措施，例如加入C2PA元數(shù)據(jù)確保視頻的透明度，并驗(yàn)證視頻的來源。同時(shí)OpenAI還設(shè)立了紅隊(duì)測試，這些測試由信息誤導(dǎo)、仇恨內(nèi)容和偏見等領(lǐng)域的專家進(jìn)行。

“在過去的九個(gè)月中，我們觀察了來自60多個(gè)國家/地區(qū)300多名用戶的500000多個(gè)模型請求的用戶反饋。這些數(shù)據(jù)有助于增強(qiáng)模型行為并提高模型對安全協(xié)議的遵守程度。”O(jiān)penAI在文章中寫道。

2.Sora并不完美

Youtube科技評測網(wǎng)紅馬克斯·基思·布朗利（Marques Brownlee，網(wǎng)名MKBHD）也對Sora進(jìn)行了深度評測。

布朗利的評測視頻，來源：Youtube

布朗利發(fā)現(xiàn)Sora擅長粒子和流體模擬，“令人驚訝的是，Sora對流體動(dòng)力學(xué)的處理相當(dāng)出色，水的波動(dòng)和火焰的效果往往能達(dá)到令人信服的程度，即使煙霧效果可能還不夠完美”。但他同時(shí)也認(rèn)為，Sora完全不懂物理。

從官方展示的視頻也可以看出，Sora對“運(yùn)動(dòng)”的理解還不全面，有時(shí)甚至錯(cuò)誤百出。比如在一個(gè)猴子輪滑的的視頻中，可在看到猴子的右腿“毫無防備”地變成了左腿。

以及在提示詞為“rockefeller center is overrun by golden retrievers! everywhere you look, there are golden retrievers.”的視頻中，金毛獵犬的數(shù)量模糊，每個(gè)個(gè)體的形狀不穩(wěn)，又時(shí)隱時(shí)現(xiàn)，比如有的腦袋突然變成了尾巴。

對于這些不足，OpenAI表示：“Sora是一款強(qiáng)大的工具，使你能夠跨越物理限制，在多個(gè)場景中同時(shí)發(fā)揮創(chuàng)造力，探索各種全新的可能性。更重要的是，我們認(rèn)為它極大地?cái)U(kuò)展了幕后創(chuàng)作者的創(chuàng)作空間，賦予他們前所未有的能力去實(shí)現(xiàn)創(chuàng)意。”

直播最后，Sora團(tuán)隊(duì)也“潑了一盆冷水”來控制用戶預(yù)期：“如果你帶著這樣的期望來到 Sora，認(rèn)為只需點(diǎn)擊一個(gè)按鈕就能生成一部故事片，那么你可能抱有錯(cuò)誤的期望。”

END.

原標(biāo)題：《生數(shù)、智譜、智源談Sora：模型在預(yù)期之內(nèi)，產(chǎn)品才是亮點(diǎn)｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報(bào)

#Sora