下載客戶端

登錄

又來一個“對標Sora”，首個國產純自研視頻大模型Vidu是真牛還是吹牛？

2024-08-03 12:54

來源：澎湃新聞·澎湃號·湃客

作者｜Valentina

編輯｜方奇

媒體｜AI大模型工場

7月30日，首個國產純自研視頻大模型Vidu全球上線，可在Web 端www.vidu.studio訪問。

在今年4月舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上，清華大學教授、生數科技首席科學家朱軍宣布，生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。生數科技稱，Vidu全面對標Sora。

此次Vidu面向全球正式上線，開放文生視頻、圖生視頻兩大核心功能，提供4s和8s兩種時長選擇，分辨率最高達1080P。在推理速度上，Vidu生成一段4s的片段僅僅需30s。在付費機制方面，Vidu與其它生成產品類似，提供免費版與3種收費機制。3種收費機制分為標準、高級與尊享。目前在上線前兩周，Vidu提供限時5折優惠。

那么究竟Vidu功能是不是和宣傳一致，能否擔當“國產視頻AI之光”的名號？AI大模型工場也感到好奇，于是迅速進行了一手測評。

一、兩大新功能體驗搶先測評：動漫風格化功能、角色一致性功能

除了文生視頻和圖生視頻的兩大基礎功能外，Vidu此次同步上線兩大全新功能，一是動漫風格，二是角色一致性。

1. 動漫風格化功能體驗

Vidu官方打出“萬物皆可二次元”的旗號。目前市面上的AI視頻工具大多局限于寫實風格或源于現實的想象。Vidu除了能實現常見的寫實等多元風格外，還新增動漫風格選項。官方圖生視頻實測案例如下：

圖生動漫風格能基本百分百保持原形像角色。整個視頻無明顯畸變，角色一致性保持良好。

來看看文生動漫風格效果怎么樣：

prompt: 動漫風格。清晨，一個穿著圍裙的女孩從林間小屋中走出來，伸了個懶腰，然后給飛過來的鳥兒笑著打了招呼。

從畫面效果來看，畫風很美，有宮崎駿電影般的質感。背景畫面細膩豐富，光線柔和有質感。從生成動漫角色看，女孩面部表情豐富生動，并且在從后面走過來的過程中，畫面背景和人物保持了高度一致性。但幀與幀卡頓感明顯，甚至最后一秒還有穿模現象。

2.角色一致性功能

在“圖生視頻”板塊中，Vidu上線了角色一致性功能。在上傳圖片的過程中，Vidu支持首幀圖和角色圖兩種選擇，前者是實現基于首幀畫面的連續生成（常見的圖生視頻功能），后者則是角色一致性生成，用戶可上傳人像圖或者自定義的角色圖，然后通過文字描述指定該角色在任意場景中做出任意動作。

上一張真人圖，先來測評看看“首幀圖”效果如何。

prompt：兩人深情擁抱

整個畫面、背景無明顯形變，人物一致性保持的更是完美，從表情、形象外觀到服裝細節，原圖到視頻都沒有發生改變。視頻人物動作流暢，表情細節包括皺紋等也處理的十分到位。同時，運動后衣服褶皺的變化也符合物理運動規律。

再來看看“角色圖”效果如何：

prompt：男人頭戴墨鏡在沙灘邊悠閑散步度假

在“角色圖”功能中，人物一致性同樣保持的很好，角色面部細節到位。新的背景摳的十分自然，整個畫面高級、漂亮、有質感。人物動作稍顯卡頓，但整體流暢度還是較高。

二、經典視頻功能深度評測

1.宏大場景+延時攝影

prompt：一座現代化城市市中心，有很多摩天大樓。俯拍的視角。延時攝影，從早上八點到晚上八點，表現了這座城市從白天的晴朗，到夜晚降臨但是霓虹燈閃爍的場景。

對于延時攝影的概念，Vidu 能夠準確的把握。對于提示詞的要求也全部給予了回復，包括俯拍摩天大樓，從早到晚等。畫面穩定流暢，甚至能讓人體驗到城市車水馬龍之感。但可惜對于4s延時攝影視頻太短，難免給人倉促之感。

2.電影感鏡頭：細膩人物刻畫

prompt：舞臺上里，一個三十歲的男性鋼琴家在表演鋼琴獨奏。舞臺上一束燈光照耀這位鋼琴家和鋼琴。鋼琴家穿著燕尾服。鋼琴家很投入，陶醉的隨著音樂而搖頭晃腦。畫面效果：真實、細膩、電影感

這個片段完成度很高。首先，人物比較穩定，手指這些細節也未發生變形，對于“搖頭晃腦”的微表情處理的也比較到位；其次，畫面的一致性保持的很好，不管是人物動作還是北京畫面，都保持了流暢穩定。對于提示詞能夠充分的理解，所有提示詞元素基本全展現畫面中；對于光影等物理規律也處理的很恰當。

3.多人物場景刻畫

prompt：橄欖球賽場上，來自兩個隊伍的多名運動員正在追著一枚扔出去的橄欖球奔跑。

到了多人畫面質感就斷崖式下跌。Vidu基本理解了多人橄欖球賽的要求，但是不論是人物還是動作都缺少細節感。并且橄欖球飛來飛去的路線，牛頓看了都要爬起來說一句：天理何在！

4.物體移動

prompt：傍晚，一座寬敞的跨江大橋上，一輛紅色的跑車在上面疾馳。跨江大橋兩岸有夜燈，但是車燈更加耀眼。紅色金屬反射出周圍的景色與燈光。

畫面質感很好，傍晚、紅色跑車、夜燈要素齊全；頭車車身有四周景色與光的反射，路面也有車燈倒影，光學物理滿分；畫面穩定、流暢、幀與幀連接較為自然；但是要求中的“一輛”跑車變成了“兩輛”，疾馳變成了緩慢行駛，理解能力一般。

雖然跑車是緩慢行駛，但是可以看出動作流暢，無明顯頓感。并且隨著運動車身還有輕微上下顛簸的細節，物理真實感和細節感拉滿。

從Vidu官方評測給出的跑車疾馳畫面，可以看出在動作幅度較大的場景中，Vidu能夠保持高流暢、高動態的畫面效果。

5.精彩二創：名畫“活過來"

prompt：切遠景，少女捧著爆米花，拿了一粒放入口中。

視頻保留了原畫風，且少女與原畫幾乎一模一樣，人物動作過程無明顯畸變，一致性Max。畫面生成穩定，且一些物理細節也刻畫的很細膩，例如少女往前伸頭的時候耳墜隨之搖擺。唯一的遺憾是沒有完全還原prompt中“拿了一粒放進嘴里”的要求。

6.超現實主義

prompt：飛機駕駛艙內，兩只熊貓在開飛機。

這個視頻完全還原了兩只可愛的熊貓在駕駛艙內操縱飛機行駛。整個畫面較為穩定、流暢，窗外天空細節做的特別好。兩只熊貓毛發細節逼真，動作自然，美中不足的是右邊熊貓的下半身貌似有粘連情況。除此之外，客艙儀表盤、按鍵等并沒有刻畫的很細膩。但考慮到駕駛艙儀表、按鍵等細節本身的復雜程度，相信Vidu也已經盡力了。

總的來說，Vidu還是“有點東西”。

對于AI視頻基本要求方面，包括一致性、畫面內容度、流暢度等方面，Vidu表現的幾乎滿分。無論是特色“角色一致性”功能，還是普通文生視頻及圖生視頻功能，Vidu都能確保人物角色保持較高的一致性。同時，生成畫面基本穩定流暢且細節到位。

另一方面，Vidu審美一流，生成的視頻往往畫面細膩，畫風優美，質感強。相比過去的視頻模型，Vidu 的動作幅度也得到了大幅度提高，并且基本上能保持動作高度流暢。同時，Vidu生成視頻的速度快是真快，所有4s視頻基本都能在30s內完成。一句話，Vidu沒有虛假宣傳！

提升空間當然還是大大有之，比如畫面偶爾還有穿模、粘連現象；對于文本理解，Vidu能夠基本理解并滿足大部分的要求，但是仍偶爾會出現對提示詞回應不充分的情況；在多人場景下，Vidu丟失了人物與動作處理細膩的特點，畫面細節嚴重缺失，還需加強多人場景制作能力。

以上是AI大模型工場本次測評體驗。雖然有不足之處，總體觀感還是不錯的。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#文生視頻