- +1
又來一個“對標Sora”,首個國產純自研視頻大模型Vidu是真牛還是吹牛?

作者|Valentina
編輯|方奇
媒體|AI大模型工場
7月30日,首個國產純自研視頻大模型Vidu全球上線,可在Web 端www.vidu.studio訪問。
在今年4月舉行的2024中關村論壇人工智能主題日未來人工智能先鋒論壇上,清華大學教授、生數科技首席科學家朱軍宣布,生數科技與清華大學聯合推出中國首個原創全自研長時長、高一致性、高動態性的視頻大模型Vidu。生數科技稱,Vidu全面對標Sora。

此次Vidu面向全球正式上線,開放文生視頻、圖生視頻兩大核心功能,提供4s和8s兩種時長選擇,分辨率最高達1080P。在推理速度上,Vidu生成一段4s的片段僅僅需30s。在付費機制方面,Vidu與其它生成產品類似,提供免費版與3種收費機制。3種收費機制分為標準、高級與尊享。目前在上線前兩周,Vidu提供限時5折優惠。
那么究竟Vidu功能是不是和宣傳一致,能否擔當“國產視頻AI之光”的名號?AI大模型工場也感到好奇,于是迅速進行了一手測評。
一、兩大新功能體驗搶先測評:動漫風格化功能、角色一致性功能
除了文生視頻和圖生視頻的兩大基礎功能外,Vidu此次同步上線兩大全新功能,一是動漫風格,二是角色一致性。
1. 動漫風格化功能體驗
Vidu官方打出“萬物皆可二次元”的旗號。目前市面上的AI視頻工具大多局限于寫實風格或源于現實的想象。Vidu除了能實現常見的寫實等多元風格外,還新增動漫風格選項。官方圖生視頻實測案例如下:


圖生動漫風格能基本百分百保持原形像角色。整個視頻無明顯畸變,角色一致性保持良好。
來看看文生動漫風格效果怎么樣:
prompt: 動漫風格。清晨,一個穿著圍裙的女孩從林間小屋中走出來,伸了個懶腰,然后給飛過來的鳥兒笑著打了招呼。

從畫面效果來看,畫風很美,有宮崎駿電影般的質感。背景畫面細膩豐富,光線柔和有質感。從生成動漫角色看,女孩面部表情豐富生動,并且在從后面走過來的過程中,畫面背景和人物保持了高度一致性。但幀與幀卡頓感明顯,甚至最后一秒還有穿模現象。
2.角色一致性功能
在“圖生視頻”板塊中,Vidu上線了角色一致性功能。在上傳圖片的過程中,Vidu支持首幀圖和角色圖兩種選擇,前者是實現基于首幀畫面的連續生成(常見的圖生視頻功能),后者則是角色一致性生成,用戶可上傳人像圖或者自定義的角色圖,然后通過文字描述指定該角色在任意場景中做出任意動作。
上一張真人圖,先來測評看看“首幀圖”效果如何。
prompt:兩人深情擁抱


整個畫面、背景無明顯形變,人物一致性保持的更是完美,從表情、形象外觀到服裝細節,原圖到視頻都沒有發生改變。視頻人物動作流暢,表情細節包括皺紋等也處理的十分到位。同時,運動后衣服褶皺的變化也符合物理運動規律。
再來看看“角色圖”效果如何:
prompt:男人頭戴墨鏡在沙灘邊悠閑散步度假


在“角色圖”功能中,人物一致性同樣保持的很好,角色面部細節到位。新的背景摳的十分自然,整個畫面高級、漂亮、有質感。人物動作稍顯卡頓,但整體流暢度還是較高。
二、經典視頻功能深度評測
1.宏大場景+延時攝影
prompt:一座現代化城市市中心,有很多摩天大樓。俯拍的視角。延時攝影,從早上八點到晚上八點,表現了這座城市從白天的晴朗,到夜晚降臨但是霓虹燈閃爍的場景。

對于延時攝影的概念,Vidu 能夠準確的把握。對于提示詞的要求也全部給予了回復,包括俯拍摩天大樓,從早到晚等。畫面穩定流暢,甚至能讓人體驗到城市車水馬龍之感。但可惜對于4s延時攝影視頻太短,難免給人倉促之感。
2.電影感鏡頭:細膩人物刻畫
prompt:舞臺上里,一個三十歲的男性鋼琴家在表演鋼琴獨奏。舞臺上一束燈光照耀這位鋼琴家和鋼琴。鋼琴家穿著燕尾服。鋼琴家很投入,陶醉的隨著音樂而搖頭晃腦。畫面效果:真實、細膩、電影感

這個片段完成度很高。首先,人物比較穩定,手指這些細節也未發生變形,對于“搖頭晃腦”的微表情處理的也比較到位;其次,畫面的一致性保持的很好,不管是人物動作還是北京畫面,都保持了流暢穩定。對于提示詞能夠充分的理解,所有提示詞元素基本全展現畫面中;對于光影等物理規律也處理的很恰當。
3.多人物場景刻畫
prompt:橄欖球賽場上,來自兩個隊伍的多名運動員正在追著一枚扔出去的橄欖球奔跑。

到了多人畫面質感就斷崖式下跌。Vidu基本理解了多人橄欖球賽的要求,但是不論是人物還是動作都缺少細節感。并且橄欖球飛來飛去的路線,牛頓看了都要爬起來說一句:天理何在!
4.物體移動
prompt:傍晚,一座寬敞的跨江大橋上,一輛紅色的跑車在上面疾馳。跨江大橋兩岸有夜燈,但是車燈更加耀眼。紅色金屬反射出周圍的景色與燈光。

畫面質感很好,傍晚、紅色跑車、夜燈要素齊全;頭車車身有四周景色與光的反射,路面也有車燈倒影,光學物理滿分;畫面穩定、流暢、幀與幀連接較為自然;但是要求中的“一輛”跑車變成了“兩輛”,疾馳變成了緩慢行駛,理解能力一般。
雖然跑車是緩慢行駛,但是可以看出動作流暢,無明顯頓感。并且隨著運動車身還有輕微上下顛簸的細節,物理真實感和細節感拉滿。

從Vidu官方評測給出的跑車疾馳畫面,可以看出在動作幅度較大的場景中,Vidu能夠保持高流暢、高動態的畫面效果。
5.精彩二創:名畫“活過來"
prompt:切遠景,少女捧著爆米花,拿了一粒放入口中。


視頻保留了原畫風,且少女與原畫幾乎一模一樣,人物動作過程無明顯畸變,一致性Max。畫面生成穩定,且一些物理細節也刻畫的很細膩,例如少女往前伸頭的時候耳墜隨之搖擺。唯一的遺憾是沒有完全還原prompt中“拿了一粒放進嘴里”的要求。
6.超現實主義
prompt:飛機駕駛艙內,兩只熊貓在開飛機。

這個視頻完全還原了兩只可愛的熊貓在駕駛艙內操縱飛機行駛。整個畫面較為穩定、流暢,窗外天空細節做的特別好。兩只熊貓毛發細節逼真,動作自然,美中不足的是右邊熊貓的下半身貌似有粘連情況。除此之外,客艙儀表盤、按鍵等并沒有刻畫的很細膩。但考慮到駕駛艙儀表、按鍵等細節本身的復雜程度,相信Vidu也已經盡力了。
總的來說,Vidu還是“有點東西”。
對于AI視頻基本要求方面,包括一致性、畫面內容度、流暢度等方面,Vidu表現的幾乎滿分。無論是特色“角色一致性”功能,還是普通文生視頻及圖生視頻功能,Vidu都能確保人物角色保持較高的一致性。同時,生成畫面基本穩定流暢且細節到位。
另一方面,Vidu審美一流,生成的視頻往往畫面細膩,畫風優美,質感強。相比過去的視頻模型,Vidu 的動作幅度也得到了大幅度提高,并且基本上能保持動作高度流暢。同時,Vidu生成視頻的速度快是真快,所有4s視頻基本都能在30s內完成。一句話,Vidu沒有虛假宣傳!
提升空間當然還是大大有之,比如畫面偶爾還有穿模、粘連現象;對于文本理解,Vidu能夠基本理解并滿足大部分的要求,但是仍偶爾會出現對提示詞回應不充分的情況;在多人場景下,Vidu丟失了人物與動作處理細膩的特點,畫面細節嚴重缺失,還需加強多人場景制作能力。
以上是AI大模型工場本次測評體驗。雖然有不足之處,總體觀感還是不錯的。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司