- +1
等待Sora上線的8個月,AI 視頻到底什么水平了?
一覺醒來,AI 圈又大變天了。現在 AI,已經進化到這種程度了!?
2024 年 10 月 22 日,多家 AI 產品帶來了新版本和新功能:
Claude 3.5 模型升級,AI 可以模仿人類訪問電腦,幫我們自動干活了;
Runway 推出了生成式角色表演工具 Act-One,人人都可以做動畫片;
Midjourney 準備發布 V7 版本,支持 ControlNet 功能精準控制 AI 圖像;
Stable Diffusion 3.5 發布了,ComfyUI 也即將支持桌面版;
還有新的開源視頻模型工具在路上......
在 Sora 被調侃為“期貨”的 8 個月里,國內外已經涌現出了一批可圈可點的 AI 視頻大模型和工具產品,各家輪流登上 AI 視頻王座。目前,MiniMax 海螺和快手可靈等國產 AI 產品,憑借高質量、穩定性、影視級的特性,在海外迅速走紅。

MiniMax 海螺 AI 的情感演繹實例視頻圖

一張圖一句話,人人都能搞定大師級鏡頭
AI 技術的不斷發展,也推動了 AI 視頻開始往影視領域探索。快手可靈 AI 聯手李少紅、賈樟柯、俞白眉等 9 位知名導演,嘗試制作 AIGC 電影短片。而 Runway CEO 在接受專訪時放言,“明年或將見證首部 AI 主導創作的電影誕生,并贏得奧斯卡獎。”
在此之際,澎湃新聞對齊 Lab 欄目上線了首部以馬蘭基地“核二代”為原型的 AI 非虛構微電影《馬蘭花開》。影片前 40 秒除航拍鏡頭使用墊圖外,其余畫面均使用前沿 AI 技術生成,實現了影視級的畫面效果,AI 輔助完成了包括 360°旋轉鏡頭等在內的多個復雜運鏡。
在這部片子中,我們把當下最新的 AI 功能,都摸了個透。AI 功能千千萬,怎么樣才能搞定大師級電影鏡頭呢?
以 360°旋轉鏡頭為例,大致有兩種思路,最直接的就是“文生視頻”,我們在最初的嘗試里,體驗了這種路徑的效果:生成畫面也挺有味道的,但是不是我們想要的。

直接文生視頻效果,源自澎湃對齊Lab
為了畫面的可控性,我們選擇了“文生圖——圖生視頻”的思路:增加一個中間環節,以確保最終畫面的調性。如果需要控制角色,這種思路也可能效果更好。
首先,我們借助目前 stable diffusion 里面超強的圖像生成模型——Flux,通過輸入提示詞和提供參考圖生成理想的電影感畫面。

360 旋轉鏡頭的第一張圖,源自澎湃對齊Lab
有了第一張圖,視頻的基本風格就定下來了,接下來就是最關鍵的運鏡環節了。綜合考量了制作需求、效果以及成本等因素后,我們最終選擇了目前“圖生視頻”中相對簡單可控的方法——利用現成視頻工具,依靠一張圖、一句話來生成 360°鏡頭。
當前大多數視頻工具一次最長能做 10-12 秒的視頻,但 AI 未必能在短時間內完成復雜的鏡頭調度。為此,我們可以結合AI視頻工具的“拓展延長”功能,將 360°的鏡頭分成幾個小部分(比如 180°、270°)一步步實現。
值得一提的是,以上操作思路都是我們基于 9 月中旬的調研得出的。但 AI 的發展實在太快了,截至 10 月 21 日,各大視頻工具的功能又做了很多的迭代升級。海螺推出了“圖生視頻”功能,即夢開啟了 S2.0 和 P2.0版本的內測......這些更新使得 360°旋轉鏡頭的制作有了更多的可能性。

不會的題,人怎么找解題思路

AI 崩壞的畫面,圖源自澎湃對齊Lab
雖然 AI 視頻已經具備影視化能力,但在細節的表現上仍舊充滿難題。在制作《馬蘭花開》的過程中,最讓我們崩潰和頭疼的,莫過于小孩跳皮筋和數飛機這兩個畫面。
比如,AI 并不能很好地理解,什么是“跳皮筋”。我們用“跳皮筋”的提示詞描述直接生成圖片,會出現語義理解偏差。最終,我們給 AI 喂經過高清修復、PS 處理后的正確照片,讓 AI 圖片里面的人物動作和姿態更加接近理想效果。
在視頻生成中也有同樣的問題,直接輸入“跳皮筋”的提示詞,AI 反饋的是活蹦亂跳的小孩、奇怪飄起的揚沙……我們只好退而求其次,用簡化提示詞的方式,讓小孩原地輕輕跳一跳、動一動,完成跳皮筋的動勢。
AI 視頻還有哪些有趣的玩法?
除了正兒八經的影視化方向,AI 視頻現在還能做很多開腦洞的效果。對于沒有任何影視后期制作經驗的人來說,AI 確實能花小錢辦大事。

Pika AI影視特效,源自X @Ethan Mollick
最近一口氣上線了 10 種 AI 影視特效,包括溶解、擠壓、消失、爆炸等。推特上的一位可視化愛好者,用 AI 特效實現了真·用手摳圖,給人一種打破次元壁的感覺。

Runway 視頻轉繪效果,源自X @oFaleco
Runway 則在近期上線了視頻生視頻(video to video)的轉繪功能。能夠根據提示詞改變用戶上傳視頻的場景、風格,并保留視頻的主體框架。
除了這些閉源工具推出的彩蛋功能,開源社區中也有很多對 AI 視頻形式的探索,比如用運動視頻驅動植物跳舞、用人物肖像視頻驅動小動物說話等。
今年的全民健身日,我們使用 ComfyUI 讓十款甜品、飲料開始了自己的“運動表演”。這套開源工作流的本質是對運動視頻進行摳像后,再根據物體形態、場景兩種參考圖對摳像視頻進行視頻轉繪。在全國生態日,我們使用開源技術 Liveportrait,把人的面部表情“移植”到了小動物身上,完成了一次野生動物的“街頭采訪”。
AI 視頻創作,難在哪里?
在 9 月 22 日舉行的 Runway Meetup Shanghai 創作者分享會上,AI Talk 創始人汗青表示,“AI 沒問題,我建議有一些局部調整:視頻的困境在于,不同于互聯網和移動時代,AI 視頻尚未等到一個適配其特性的新媒介”。
汗青還強調,許多人覺得 AI 視頻能降本增效,但看視頻的人其實并不關心。在微短劇、短視頻、直播當道的今天,AI 視頻靠什么去獲得受眾的注意力,是 AI 視頻創作者值得去深思的問題。
而對于新聞機構從業者來說,AI 視頻創作的主要顧慮是新聞真實性和 AI 虛構能力之間存在一定的矛盾。但如果用到非虛構領域,就能讓 AI 肆意發揮他的創意。
在構思《馬蘭開花》的故事時,我們拋棄了用 AI 視頻來還原歷史事件的創作方向,一方面是因為公開的資料有限,生成 AI 視頻缺乏依據;另一方面,AI 視頻在細節還原的準確性上還存在不足,在重要的歷史事件中容易造成誤讀和偏差。

海外主流AI視頻工具流量對比,源自Similarweb
隨著 AI 視頻產品逐漸進入“祛魅”期,許多主流 AI 視頻產品的熱度也出現了下滑的趨勢。流量分析工具 Similarweb 的數據顯示,Luma AI 于 9 月初上線了 1.6 版本,但當月訪問量環比下降了 38.49%。作為全球 AI 視頻的第一梯隊產品,Luma AI 每月的訪問量大約只有 ChatGPT 的 1/413。
AI 視頻產品的升級迭代,往往伴隨著“嘗鮮”式的擠兌體驗和漫長的排隊,反而會給用戶帶來負面的體驗。從主流 AI 視頻工具近年來的迭代變化來看,還并沒有出現真正改變游戲規則的模型和產品。
信達證券在今年 7 月發布的一份研報中指出,AI 視頻行業的風險因素包括:AI 底層大模型發展、AI 視頻技術迭代和 AI 視頻產品付費滲透率提升均不及預期。
但是人人都是導演的愿景,或許本來就需要更多等待的耐心。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司