- +1
又來一個(gè)“對標(biāo)Sora”,首個(gè)國產(chǎn)純自研視頻大模型Vidu是真牛還是吹牛?
作者|Valentina
編輯|方奇
媒體|AI大模型工場
7月30日,首個(gè)國產(chǎn)純自研視頻大模型Vidu全球上線,可在Web 端www.vidu.studio訪問。
在今年4月舉行的2024中關(guān)村論壇人工智能主題日未來人工智能先鋒論壇上,清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍宣布,生數(shù)科技與清華大學(xué)聯(lián)合推出中國首個(gè)原創(chuàng)全自研長時(shí)長、高一致性、高動(dòng)態(tài)性的視頻大模型Vidu。生數(shù)科技稱,Vidu全面對標(biāo)Sora。
此次Vidu面向全球正式上線,開放文生視頻、圖生視頻兩大核心功能,提供4s和8s兩種時(shí)長選擇,分辨率最高達(dá)1080P。在推理速度上,Vidu生成一段4s的片段僅僅需30s。在付費(fèi)機(jī)制方面,Vidu與其它生成產(chǎn)品類似,提供免費(fèi)版與3種收費(fèi)機(jī)制。3種收費(fèi)機(jī)制分為標(biāo)準(zhǔn)、高級與尊享。目前在上線前兩周,Vidu提供限時(shí)5折優(yōu)惠。
那么究竟Vidu功能是不是和宣傳一致,能否擔(dān)當(dāng)“國產(chǎn)視頻AI之光”的名號(hào)?AI大模型工場也感到好奇,于是迅速進(jìn)行了一手測評。
一、兩大新功能體驗(yàn)搶先測評:動(dòng)漫風(fēng)格化功能、角色一致性功能
除了文生視頻和圖生視頻的兩大基礎(chǔ)功能外,Vidu此次同步上線兩大全新功能,一是動(dòng)漫風(fēng)格,二是角色一致性。
1. 動(dòng)漫風(fēng)格化功能體驗(yàn)
Vidu官方打出“萬物皆可二次元”的旗號(hào)。目前市面上的AI視頻工具大多局限于寫實(shí)風(fēng)格或源于現(xiàn)實(shí)的想象。Vidu除了能實(shí)現(xiàn)常見的寫實(shí)等多元風(fēng)格外,還新增動(dòng)漫風(fēng)格選項(xiàng)。官方圖生視頻實(shí)測案例如下:
圖生動(dòng)漫風(fēng)格能基本百分百保持原形像角色。整個(gè)視頻無明顯畸變,角色一致性保持良好。
來看看文生動(dòng)漫風(fēng)格效果怎么樣:
prompt: 動(dòng)漫風(fēng)格。清晨,一個(gè)穿著圍裙的女孩從林間小屋中走出來,伸了個(gè)懶腰,然后給飛過來的鳥兒笑著打了招呼。
從畫面效果來看,畫風(fēng)很美,有宮崎駿電影般的質(zhì)感。背景畫面細(xì)膩豐富,光線柔和有質(zhì)感。從生成動(dòng)漫角色看,女孩面部表情豐富生動(dòng),并且在從后面走過來的過程中,畫面背景和人物保持了高度一致性。但幀與幀卡頓感明顯,甚至最后一秒還有穿模現(xiàn)象。
2.角色一致性功能
在“圖生視頻”板塊中,Vidu上線了角色一致性功能。在上傳圖片的過程中,Vidu支持首幀圖和角色圖兩種選擇,前者是實(shí)現(xiàn)基于首幀畫面的連續(xù)生成(常見的圖生視頻功能),后者則是角色一致性生成,用戶可上傳人像圖或者自定義的角色圖,然后通過文字描述指定該角色在任意場景中做出任意動(dòng)作。
上一張真人圖,先來測評看看“首幀圖”效果如何。
prompt:兩人深情擁抱
整個(gè)畫面、背景無明顯形變,人物一致性保持的更是完美,從表情、形象外觀到服裝細(xì)節(jié),原圖到視頻都沒有發(fā)生改變。視頻人物動(dòng)作流暢,表情細(xì)節(jié)包括皺紋等也處理的十分到位。同時(shí),運(yùn)動(dòng)后衣服褶皺的變化也符合物理運(yùn)動(dòng)規(guī)律。
再來看看“角色圖”效果如何:
prompt:男人頭戴墨鏡在沙灘邊悠閑散步度假
在“角色圖”功能中,人物一致性同樣保持的很好,角色面部細(xì)節(jié)到位。新的背景摳的十分自然,整個(gè)畫面高級、漂亮、有質(zhì)感。人物動(dòng)作稍顯卡頓,但整體流暢度還是較高。
二、經(jīng)典視頻功能深度評測
1.宏大場景+延時(shí)攝影
prompt:一座現(xiàn)代化城市市中心,有很多摩天大樓。俯拍的視角。延時(shí)攝影,從早上八點(diǎn)到晚上八點(diǎn),表現(xiàn)了這座城市從白天的晴朗,到夜晚降臨但是霓虹燈閃爍的場景。
對于延時(shí)攝影的概念,Vidu 能夠準(zhǔn)確的把握。對于提示詞的要求也全部給予了回復(fù),包括俯拍摩天大樓,從早到晚等。畫面穩(wěn)定流暢,甚至能讓人體驗(yàn)到城市車水馬龍之感。但可惜對于4s延時(shí)攝影視頻太短,難免給人倉促之感。
2.電影感鏡頭:細(xì)膩人物刻畫
prompt:舞臺(tái)上里,一個(gè)三十歲的男性鋼琴家在表演鋼琴獨(dú)奏。舞臺(tái)上一束燈光照耀這位鋼琴家和鋼琴。鋼琴家穿著燕尾服。鋼琴家很投入,陶醉的隨著音樂而搖頭晃腦。畫面效果:真實(shí)、細(xì)膩、電影感
這個(gè)片段完成度很高。首先,人物比較穩(wěn)定,手指這些細(xì)節(jié)也未發(fā)生變形,對于“搖頭晃腦”的微表情處理的也比較到位;其次,畫面的一致性保持的很好,不管是人物動(dòng)作還是北京畫面,都保持了流暢穩(wěn)定。對于提示詞能夠充分的理解,所有提示詞元素基本全展現(xiàn)畫面中;對于光影等物理規(guī)律也處理的很恰當(dāng)。
3.多人物場景刻畫
prompt:橄欖球賽場上,來自兩個(gè)隊(duì)伍的多名運(yùn)動(dòng)員正在追著一枚扔出去的橄欖球奔跑。
到了多人畫面質(zhì)感就斷崖式下跌。Vidu基本理解了多人橄欖球賽的要求,但是不論是人物還是動(dòng)作都缺少細(xì)節(jié)感。并且橄欖球飛來飛去的路線,牛頓看了都要爬起來說一句:天理何在!
4.物體移動(dòng)
prompt:傍晚,一座寬敞的跨江大橋上,一輛紅色的跑車在上面疾馳。跨江大橋兩岸有夜燈,但是車燈更加耀眼。紅色金屬反射出周圍的景色與燈光。
畫面質(zhì)感很好,傍晚、紅色跑車、夜燈要素齊全;頭車車身有四周景色與光的反射,路面也有車燈倒影,光學(xué)物理滿分;畫面穩(wěn)定、流暢、幀與幀連接較為自然;但是要求中的“一輛”跑車變成了“兩輛”,疾馳變成了緩慢行駛,理解能力一般。
雖然跑車是緩慢行駛,但是可以看出動(dòng)作流暢,無明顯頓感。并且隨著運(yùn)動(dòng)車身還有輕微上下顛簸的細(xì)節(jié),物理真實(shí)感和細(xì)節(jié)感拉滿。
從Vidu官方評測給出的跑車疾馳畫面,可以看出在動(dòng)作幅度較大的場景中,Vidu能夠保持高流暢、高動(dòng)態(tài)的畫面效果。
5.精彩二創(chuàng):名畫“活過來"
prompt:切遠(yuǎn)景,少女捧著爆米花,拿了一粒放入口中。
視頻保留了原畫風(fēng),且少女與原畫幾乎一模一樣,人物動(dòng)作過程無明顯畸變,一致性Max。畫面生成穩(wěn)定,且一些物理細(xì)節(jié)也刻畫的很細(xì)膩,例如少女往前伸頭的時(shí)候耳墜隨之搖擺。唯一的遺憾是沒有完全還原prompt中“拿了一粒放進(jìn)嘴里”的要求。
6.超現(xiàn)實(shí)主義
prompt:飛機(jī)駕駛艙內(nèi),兩只熊貓?jiān)陂_飛機(jī)。
這個(gè)視頻完全還原了兩只可愛的熊貓?jiān)隈{駛艙內(nèi)操縱飛機(jī)行駛。整個(gè)畫面較為穩(wěn)定、流暢,窗外天空細(xì)節(jié)做的特別好。兩只熊貓毛發(fā)細(xì)節(jié)逼真,動(dòng)作自然,美中不足的是右邊熊貓的下半身貌似有粘連情況。除此之外,客艙儀表盤、按鍵等并沒有刻畫的很細(xì)膩。但考慮到駕駛艙儀表、按鍵等細(xì)節(jié)本身的復(fù)雜程度,相信Vidu也已經(jīng)盡力了。
總的來說,Vidu還是“有點(diǎn)東西”。
對于AI視頻基本要求方面,包括一致性、畫面內(nèi)容度、流暢度等方面,Vidu表現(xiàn)的幾乎滿分。無論是特色“角色一致性”功能,還是普通文生視頻及圖生視頻功能,Vidu都能確保人物角色保持較高的一致性。同時(shí),生成畫面基本穩(wěn)定流暢且細(xì)節(jié)到位。
另一方面,Vidu審美一流,生成的視頻往往畫面細(xì)膩,畫風(fēng)優(yōu)美,質(zhì)感強(qiáng)。相比過去的視頻模型,Vidu 的動(dòng)作幅度也得到了大幅度提高,并且基本上能保持動(dòng)作高度流暢。同時(shí),Vidu生成視頻的速度快是真快,所有4s視頻基本都能在30s內(nèi)完成。一句話,Vidu沒有虛假宣傳!
提升空間當(dāng)然還是大大有之,比如畫面偶爾還有穿模、粘連現(xiàn)象;對于文本理解,Vidu能夠基本理解并滿足大部分的要求,但是仍偶爾會(huì)出現(xiàn)對提示詞回應(yīng)不充分的情況;在多人場景下,Vidu丟失了人物與動(dòng)作處理細(xì)膩的特點(diǎn),畫面細(xì)節(jié)嚴(yán)重缺失,還需加強(qiáng)多人場景制作能力。
以上是AI大模型工場本次測評體驗(yàn)。雖然有不足之處,總體觀感還是不錯(cuò)的。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號(hào)請用電腦訪問http://renzheng.thepaper.cn。
- 澎湃新聞微博
- 澎湃新聞公眾號(hào)
- 澎湃新聞抖音號(hào)
- IP SHANGHAI
- SIXTH TONE
- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2024 上海東方報(bào)業(yè)有限公司