下載客戶端

登錄

視頻大模型“造夢機器”爆紅：瑕疵真不少，關鍵是能用

2024-06-14 15:39

來源：澎湃新聞·澎湃號·湃客

過去半年，AI 生成視頻一直處在斷斷續續推進的狀態。在 OpenAI 年初推出 Sora 時引發空前討論之后，號稱國內首個自研視頻大模型的 Vidu，以及后續字節、騰訊、快手等多家國產廠商推出視頻生成模型，都在時不時引發外界的關注。就在前幾天，雷科技還對快手的視頻大模型「可靈」進行了內測體驗。

不過，這兩天 AI 生成視頻確實又火了。

一發布就火，「造夢機器」燒遍社交網絡

6 月 12 日，初創公司 Luma AI 發布了新的 AI 視頻生成模型 Dream Machine（造夢機器），并且面向公眾開放測試。很快，不僅官方放出的一系列樣片，社交網絡上還出現了一大堆由網友通過「造夢機器」生成的視頻。

比如現代風格的樣片，它在少女和貓的呈現效果上水準相當高，尤其是貓的頭部和眼部動作。

圖片經過壓縮，圖/ Luma AI

還有奇幻風格的，生成的人物或者物體也確實奇幻，甚至有些克蘇魯的味道。

圖片經過壓縮、剪輯，圖/ Luma AI

此外，「造夢機器」不僅支持通過文本生成視頻，也支持基于圖片和文本生成視頻，所以你還能看到從《戴珍珠耳環的少女》中跳出的少女，還有房地產中介可能會喜歡的「如何讓景觀圖變成景觀視頻」。

甚至，有人已經開始利用「造夢機器」創造一個講述「一日生活」的影像故事，包括美國中學生從早起到上學再到舞會的刻畫。

不只是用戶玩得開，海外和國內媒體也都注意到了「造夢機器」的熱度。不過有一說一，有些國內媒體明顯吹過了頭，什么超越 Sora、比 Sora 更真實流暢，這些我們先稍后再談，但「造夢機器」哪來的支持 120 秒生成視頻？

事實上，「造夢機器」只支持生成 5 秒的視頻，官網說的是生成視頻需要 120 秒，排隊等待的時間另說。而如果單獨打開官網上的樣片，也會發現一律都是 5 秒（除非有剪輯）。

圖/ Luma AI

這個視頻時長，比起國產視頻大模型 Vidu 的 16 秒（最近又宣稱延長到了 32 秒的有聲視頻）就不用說了，更何況是將 AI 生成視頻時長突破到 60 秒的 Sora。

按照 OpenAI 官方公布的信息，Sora 能夠實現視頻時長突破，主要功臣是其所采用的擴散 Transformer 架構，在 Diffusion 擴散模型的基礎上將 U-Net 架構替換成了 Transformer 架構。

「造夢機器」呢？目前 Luma AI 公司并未透露具體的情況。

當然，5 秒的視頻時長你也不能說太短，因為目前大量的視頻生成模型也只能生成 5 秒的視頻，包括宣稱可以生成最長 2 分鐘的快手可靈，至少目前也只能生成 5 秒的視頻。而且我們也不能只看「視頻時長」一個維度，還得看畫面的可用性以及使用潛力。

表現驚艷，但內容可靠嗎？

坦率地講，「造夢機器」給小雷的第一印象還是挺驚艷的，首先感受下官方放出的樣片。

圖片經過壓縮，圖/ Luma AI

比如這段中，在一個氛圍透露著危險的房間，一個持槍的男子小心翼翼地前進。

除了人物主體和背景的一致性，最讓人驚訝的可能是光照的變化。不僅是手槍上明顯的光線反射，在男子臉上，也可以看到原本詭譎的紅光在人物移動過程中，色溫逐漸由暖轉冷，并與鄰近光源趨同，包括亮度的變化也符合基本的物理規律。

還有一段是在一間廢棄的房屋中發生了爆炸，鏡頭由遠及近。雖然還是會出現憑空固定的白色棒狀物，但在鏡頭移動的過程，不管是家具的不變，還是氣流變化引起的紙屑亂飛，都稱得上符合直覺。

另外「造夢機器」也展現了作為動畫創作工具的潛力，比如在一段視頻中，鏡頭從角色正面轉向背面，已經很接近動畫創作中的特寫鏡頭。

圖片經過壓縮，圖/ Luma AI

但是，這些終究還是官方「嚴選」出來的。不管是文字、圖片還是視頻生成模型，官方 Demo 肯定會經過精挑細選找出相對較好的，這一點大家都能理解，但從普通用戶的角度，很容易代入誤以為是模型的平均水平。

在實際網友創作和分享的內容中，即便是在那些相當驚艷的少數作品中，你也能看到或多或少的錯誤。

比如@minchoi 用「造夢機器」創作的美少女視頻，好幾段都完全媲美真人實拍。

圖/ X

不過，人物的手還是存在渲染問題，而且人物的形態還是會有一定的變化，在前面提到的《戴珍珠耳環的少女》視頻中更加明顯。

圖片經過壓縮，圖/ Luma AI

另外，一致性的問題還體現在風格上，有的明明是 2D 動畫風格，慢慢就開始往 3D 動畫的風格轉。

圖片經過壓縮，圖/ Luma AI

小雷也試著用「造夢機器」創作了一段視頻，Prompt 是「A group of people walking down a street at night with umbrellas on the windows of stores.」實際效果還是比較糟糕的：人物詭異的倒退，在背后拿著傘的怪異舉動，還有飛起來的雨傘。

圖片經過壓縮，圖/ Luma AI

不過還是有一些優點的，比如路面的倒影，背景和人物的一致性。

即便如此，這些問題說到底還是沒有攔住廣大網友的創作熱情。畢竟相比 Sora，「造夢機器」至少公開可用，還有每個月 30 次的免費生成機會。而相比大部分可用的視頻生成模型，「造夢機器」在一致性也有明顯的進步。

而除了免費用戶，「造夢機器」目前還提供三檔付費選項，包括 29.99 美元的標準檔、99.99 美元的專業檔以及 499.99 美元的高級檔，區別是每個月可以生成視頻的次數。

圖/ Luma AI

對于普通用戶來說，這些定價可能有些離譜，但對于那些開始通過「造夢機器」創作視頻在 TikTok 上賺錢的創作者來說，估計還在接受范圍內。

從 AI 畫圖到 AI 視頻，大模型再次混戰

AI 視頻不是從「造夢機器」開始的，當然也不是從 Sora 開始的。事實上早在 2022 年，AI 繪畫已經開始驚艷世界的時候，AI 視頻就開始吸引大量的關注。

首先我們需要回到 2022 年那個時間點，彼時 ChatGPT 還在醞釀（年底才發布），在大眾眼中，AI 技術發展最快速的領域當屬 AI 繪畫。

2022 年 4 月，OpenAI 發布了新版本的文本生成圖像程序——DALL-E 2，一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網絡，讓一眾畫師真正有了「失業」的擔憂。

圖/ OpenAI

包括之后的 Midjourney，它們在生成圖像方面相比之前的產品都有更高的分辨率和更低的延遲。Stable Diffusion 雖然起步最晚，憑借開源的優勢，在用戶關注度和使用范圍都超越了 Midjourney 和 DALL-E，在初期的進步也最明顯。

事實上，當時 AI 繪畫已經開始「侵入」社會的方方面面，不管是獲獎的《太空歌劇院》（Midjourney 生成），還是各大公司開始嘗試通過 AI 繪畫直接生成廣告、海報甚至內容作品。

圖片可以 AI 生成，視頻還會遠嗎？眾所周知，視頻本質上就是一幀一幀的圖片組成。所以在 2022 年，谷歌和 Meta 其實就開始了一場關于 AI 生成視頻的競爭，Meta 有 Make-A-Video，谷歌有 Imagen Video，二者都是通過文本直接生成視頻的視頻擴散模型，底層還是 AI 繪圖那一套。

圖/ Meta

當時，AI 生成視頻時長都不超過 5 秒，分辨率也很低，同時畫面變化很小，與其說視頻，更像是讓圖片「動一動」。更重要的是，谷歌和 Meta 受限于大公司的身份和慣性，都沒有選擇開放給用戶以及創作者使用，更多還是研究成果的展示，影響范圍也基本局限在圈內。

相比之下，Runway、Synthesia 以及 Pika 等 AI 視頻創業公司就顯得更加「靈活」。在去年發布的 Gen-2 上，Runway 不僅改進了視頻生成的質量，還增加了 Motion Slider（運動滑塊）、Camera Motion （相機運動）等功能，把更多視頻的控制權交給用戶。

去年火過一陣的 Pika 也是一款比較受關注的 AI 視頻生成工具，由于較高的畫面質量甚至一度被稱為「視頻版 Midjourney」，同時相比 Runway Gen-2，Pika 為了確保內容的可控性和擴展性，還更進一步給了創作者更多的控制權，比如可以精細到眼部和表情的規劃生成。

此后，包括 Stable Diffusion 以及 Midjourney 也都陸續推出了生成視頻的版本，讓 AI 生成視頻進入戰國時代。但不管是哪一家，就 AI 生成視頻的畫面表現來看其實沒有太大的差異，更多是產品層面的差異。

直到 Sora 帶著 Transformer 架構出道即碾壓。

大語言模型，在改變 AI 視頻生成

Sora 引發的震撼和討論可謂有目共睹，甚至有人認為 Sora 將是通往 AGI（通用人工智能）的快車道。Sora 是否能真正理解物理世界的運行規律，我們先放在一邊不談，但可以肯定的是，Sora 徹底改變了 AI 視頻生成技術的發展路線。

圖片經過壓縮、剪輯，圖/ OpenAI

Sora 最震撼的技術突破之一在于其輸出的視頻時長，當其他家普遍都只能生成數秒視頻的時候，Sora 就將時長突破了 60 秒。

事實上，包括最新發布的「造夢機器」也只能生成幾秒的視頻，一旦需要更長的視頻，第二次、第三次、第 N 次生成的視頻很容易出現變形，導致前后畫面差異過大，從而無法使用。

此外，AI 生成視頻還普遍存在基于時間的連貫性問題，但一段關于小狗的 Sora 生成視頻中，行人完全擋住畫面之后，小狗依然能保持住連貫性，主體也沒有發生明顯的變化。再有就是大家提過很多次的「模擬」，能夠很好地模擬符合物理世界規則的動作。

而 Sora 的這些優勢很大程度上來源于架構上的核心區別，所以在 Sora 之后，Transformer 架構與擴散模型相結合的全新技術路線很快受到了廣泛的關注，包括生數科技（聯合清華大學）Vidu、愛詩科技 PixVerse、快手可靈也都采取了這一路線。

從這個角度來看，雖然 Luma AI 沒有公開「造夢機器」采用的架構設計，但結合在生成視頻中表現的一致性和邏輯表現，很難相信「造夢機器」是在純擴散模型上的產物，大概率，也是借鑒了 Sora 將 Transformer 架構融入擴散模型的做法。

當然，這也只是一種猜測。但對 AI 視頻來說，這越來越成為一種必然。

2024年5月20日-6月30日，618年中大促來襲，淘寶天貓、京東、拼多多、抖音、快手、小紅書六大電商平臺集體“聽勸”，取消預售、瘋狂殺價！

手機數碼、AI PC、智能家電、電視、小家電、空冰洗等熱門AI硬科技品類摩拳擦掌，戰況激烈。

雷科技618報道團將全程關注電商平臺最新戰況，AI硬科技品牌最新動態，電商行業全新趨勢，敬請關注，一起期待。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#AI #大模型 #科技 #智能 #Sora爆火

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網安備31010602000299號

互聯網新聞信息服務許可證：31120170006

增值電信業務經營許可證：滬B2-2017116

? 2014-2025 上海東方報業有限公司

反饋

▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

視頻大模型“造夢機器”爆紅：瑕疵真不少，關鍵是能用

掃碼下載澎湃新聞客戶端