下載客戶端

登錄

等待Sora上線的8個月，AI 視頻到底什么水平了？

澎湃新聞記者杜海燕孔家興衛瑤

2024-10-23 21:07

來源：澎湃新聞

? 對齊Lab >

一覺醒來，AI 圈又大變天了。現在 AI，已經進化到這種程度了！?

2024 年 10 月 22 日，多家 AI 產品帶來了新版本和新功能：

Claude 3.5 模型升級，AI 可以模仿人類訪問電腦，幫我們自動干活了；

Runway 推出了生成式角色表演工具 Act-One，人人都可以做動畫片；

Midjourney 準備發布 V7 版本，支持 ControlNet 功能精準控制 AI 圖像；

Stable Diffusion 3.5 發布了，ComfyUI 也即將支持桌面版；

還有新的開源視頻模型工具在路上......

Runway 新工具 Act-One(00:59)

在 Sora 被調侃為“期貨”的 8 個月里，國內外已經涌現出了一批可圈可點的 AI 視頻大模型和工具產品，各家輪流登上 AI 視頻王座。目前，MiniMax 海螺和快手可靈等國產 AI 產品，憑借高質量、穩定性、影視級的特性，在海外迅速走紅。

MiniMax 海螺 AI 的情感演繹實例視頻圖

一張圖一句話，人人都能搞定大師級鏡頭

AI 技術的不斷發展，也推動了 AI 視頻開始往影視領域探索。快手可靈 AI 聯手李少紅、賈樟柯、俞白眉等 9 位知名導演，嘗試制作 AIGC 電影短片。而 Runway CEO 在接受專訪時放言，“明年或將見證首部 AI 主導創作的電影誕生，并贏得奧斯卡獎。”

在此之際，澎湃新聞對齊 Lab 欄目上線了首部以馬蘭基地“核二代”為原型的 AI 非虛構微電影《馬蘭花開》。影片前 40 秒除航拍鏡頭使用墊圖外，其余畫面均使用前沿 AI 技術生成，實現了影視級的畫面效果，AI 輔助完成了包括 360°旋轉鏡頭等在內的多個復雜運鏡。

AI微電影《馬蘭花開》(02:11)

在這部片子中，我們把當下最新的 AI 功能，都摸了個透。AI 功能千千萬，怎么樣才能搞定大師級電影鏡頭呢？

以 360°旋轉鏡頭為例，大致有兩種思路，最直接的就是“文生視頻”，我們在最初的嘗試里，體驗了這種路徑的效果：生成畫面也挺有味道的，但是不是我們想要的。

直接文生視頻效果，源自澎湃對齊Lab

為了畫面的可控性，我們選擇了“文生圖——圖生視頻”的思路：增加一個中間環節，以確保最終畫面的調性。如果需要控制角色，這種思路也可能效果更好。

首先，我們借助目前 stable diffusion 里面超強的圖像生成模型——Flux，通過輸入提示詞和提供參考圖生成理想的電影感畫面。

360 旋轉鏡頭的第一張圖，源自澎湃對齊Lab

有了第一張圖，視頻的基本風格就定下來了，接下來就是最關鍵的運鏡環節了。綜合考量了制作需求、效果以及成本等因素后，我們最終選擇了目前“圖生視頻”中相對簡單可控的方法——利用現成視頻工具，依靠一張圖、一句話來生成 360°鏡頭。

當前大多數視頻工具一次最長能做 10-12 秒的視頻，但 AI 未必能在短時間內完成復雜的鏡頭調度。為此，我們可以結合AI視頻工具的“拓展延長”功能，將 360°的鏡頭分成幾個小部分（比如 180°、270°）一步步實現。

值得一提的是，以上操作思路都是我們基于 9 月中旬的調研得出的。但 AI 的發展實在太快了，截至 10 月 21 日，各大視頻工具的功能又做了很多的迭代升級。海螺推出了“圖生視頻”功能，即夢開啟了 S2.0 和 P2.0版本的內測......這些更新使得 360°旋轉鏡頭的制作有了更多的可能性。

不會的題，人怎么找解題思路

AI 崩壞的畫面，圖源自澎湃對齊Lab

雖然 AI 視頻已經具備影視化能力，但在細節的表現上仍舊充滿難題。在制作《馬蘭花開》的過程中，最讓我們崩潰和頭疼的，莫過于小孩跳皮筋和數飛機這兩個畫面。

比如，AI 并不能很好地理解，什么是“跳皮筋”。我們用“跳皮筋”的提示詞描述直接生成圖片，會出現語義理解偏差。最終，我們給 AI 喂經過高清修復、PS 處理后的正確照片，讓 AI 圖片里面的人物動作和姿態更加接近理想效果。

在視頻生成中也有同樣的問題，直接輸入“跳皮筋”的提示詞，AI 反饋的是活蹦亂跳的小孩、奇怪飄起的揚沙……我們只好退而求其次，用簡化提示詞的方式，讓小孩原地輕輕跳一跳、動一動，完成跳皮筋的動勢。

AI 視頻還有哪些有趣的玩法？

除了正兒八經的影視化方向，AI 視頻現在還能做很多開腦洞的效果。對于沒有任何影視后期制作經驗的人來說，AI 確實能花小錢辦大事。

Pika AI影視特效，源自X @Ethan Mollick

最近一口氣上線了 10 種 AI 影視特效，包括溶解、擠壓、消失、爆炸等。推特上的一位可視化愛好者，用 AI 特效實現了真·用手摳圖，給人一種打破次元壁的感覺。

Runway 視頻轉繪效果，源自X @oFaleco

Runway 則在近期上線了視頻生視頻（video to video）的轉繪功能。能夠根據提示詞改變用戶上傳視頻的場景、風格，并保留視頻的主體框架。

除了這些閉源工具推出的彩蛋功能，開源社區中也有很多對 AI 視頻形式的探索，比如用運動視頻驅動植物跳舞、用人物肖像視頻驅動小動物說話等。

全民健身日｜AI一下，“早C晚A”都陪你動起來(01:00)

AI街采｜假如動物會說話，它們會怎么說城市生態(02:55)

今年的全民健身日，我們使用 ComfyUI 讓十款甜品、飲料開始了自己的“運動表演”。這套開源工作流的本質是對運動視頻進行摳像后，再根據物體形態、場景兩種參考圖對摳像視頻進行視頻轉繪。在全國生態日，我們使用開源技術 Liveportrait，把人的面部表情“移植”到了小動物身上，完成了一次野生動物的“街頭采訪”。

AI 視頻創作，難在哪里？

在 9 月 22 日舉行的 Runway Meetup Shanghai 創作者分享會上，AI Talk 創始人汗青表示，“AI 沒問題，我建議有一些局部調整：視頻的困境在于，不同于互聯網和移動時代，AI 視頻尚未等到一個適配其特性的新媒介”。

汗青還強調，許多人覺得 AI 視頻能降本增效，但看視頻的人其實并不關心。在微短劇、短視頻、直播當道的今天，AI 視頻靠什么去獲得受眾的注意力，是 AI 視頻創作者值得去深思的問題。

而對于新聞機構從業者來說，AI 視頻創作的主要顧慮是新聞真實性和 AI 虛構能力之間存在一定的矛盾。但如果用到非虛構領域，就能讓 AI 肆意發揮他的創意。

在構思《馬蘭開花》的故事時，我們拋棄了用 AI 視頻來還原歷史事件的創作方向，一方面是因為公開的資料有限，生成 AI 視頻缺乏依據；另一方面，AI 視頻在細節還原的準確性上還存在不足，在重要的歷史事件中容易造成誤讀和偏差。

海外主流AI視頻工具流量對比，源自Similarweb

隨著 AI 視頻產品逐漸進入“祛魅”期，許多主流 AI 視頻產品的熱度也出現了下滑的趨勢。流量分析工具 Similarweb 的數據顯示，Luma AI 于 9 月初上線了 1.6 版本，但當月訪問量環比下降了 38.49%。作為全球 AI 視頻的第一梯隊產品，Luma AI 每月的訪問量大約只有 ChatGPT 的 1/413。

AI 視頻產品的升級迭代，往往伴隨著“嘗鮮”式的擠兌體驗和漫長的排隊，反而會給用戶帶來負面的體驗。從主流 AI 視頻工具近年來的迭代變化來看，還并沒有出現真正改變游戲規則的模型和產品。

信達證券在今年 7 月發布的一份研報中指出，AI 視頻行業的風險因素包括：AI 底層大模型發展、AI 視頻技術迭代和 AI 視頻產品付費滲透率提升均不及預期。

但是人人都是導演的愿景，或許本來就需要更多等待的耐心。

責任編輯：呂妍

校對：劉威

澎湃新聞報料：021-962866

澎湃新聞，未經授權不得轉載

我要舉報