視頻大模型激戰180天：Sora“高冷隱身”，國產巨頭狂卷落地

2024-07-11 15:19

來源：澎湃新聞·澎湃號·湃客

2024年上半年，AI視頻生成領域迎來了一系列令人矚目的突破。

今年2月OpenAI發布了全新的文生視頻模型Sora，率先開啟了AI視頻生成的ChatGPT時刻；3月26日，字節跳動旗下剪映Dreamina開放內測；4月27日，AI企業生數科技發布了號稱國內首個自研視頻大模型的Vidu；6月6日，快手可靈AI正式開放內測......

AI視頻生成賽道在全球的高度關注下催生出一個又一個新技術成果，與此同時，國內外類Sora創企們也開始活躍起來。僅僅在今年上半年，愛詩科技、生數科技、Pika等AI企業就完成了多輪億元級別的融資，成立于2018年的老牌AI視頻生成企業Runway也傳出新一輪的融資計劃。

海量資金加持下的AI視頻生成賽道必定會給我們帶來更多驚喜，不過在此之前，借著這個年中時刻，小雷帶大家來一起回顧下今年上半年的AI視頻大模型產品，看看各家大模型發布了哪些新產品，它們在產品方向又有了什么新變化。

Sora持續隱身，快手可靈AI火爆全網

1、Sora：引領視頻生成技術路線創新

說實話，說實話，將Sora置于產品隊列中討論并不合適，因為Sora至今也沒有對公眾開放，只有業界和設計界的極少數人受邀使用。但考慮到Sora的出現推動了AI視頻生成技術在全球范圍內的邁進，為了方便大家理解，小雷認為還是有必要對其進行回顧。

在OpenAI發布Sora模型之前，代表著行業領先水平的是Runway、Pika Labs，以及谷歌VideoPoet這一批老牌AI視頻生成玩家。它們沒有引起全球關注的最大原因是生成視頻的技術難度非常高。

圖源：Sora

制作視頻不僅需要依賴于先進的算法和強大的計算能力，還必須解決包括一致性、連貫性、物理合理性以及邏輯合理性在內的多種復雜問題。這些因素共同確保了視頻內容的流暢性、真實性和可信度。

Runway們早期主要依賴于GAN（生成式對抗網絡）和VAE（變分自編碼器）兩種模型進行視頻生成，之后演變出兩種技術路線，分別是擴散模型和Transformer模型，兩者各具優劣，可以說是各有千秋。

而根據OpenAI在發布Sora當天給出的技術解釋，Sora正是擴散模型和Transformer模型的結合。雖然在Sora發布之前，結合方案已成為業內普遍嘗試的方向，但OpenAI作為首個發布Demo的企業，已經在AI視頻生成領域確立了行業地位。

按照目前情況來看，OpenAI絲毫沒有公開Sora的意思。在競爭日益加劇的AI視頻生成領域，Sora的持續隱身會給其他競爭對手帶來追趕甚至超越的機會。

2、快手可靈AI：國產AI國外爆火，高頻更新值得期待

在2024年世界人工智能大會（WAIC）上，快手高級副總裁于越介紹了可靈AI的部分產品更新以及最新數據。作為一款剛剛發布一個月的產品，可靈AI的更新可謂是相當頻繁。產品從內測時的App端，擴展到了Web端；功能也從文生視頻，陸續更新了圖生視頻、視頻續寫、多尺寸選擇、高畫質版、首尾幀控制、鏡頭控制等新功能。

據快手披露的數據顯示，可靈大模型上線一個月以來，累計申請用戶數50萬+，開通用戶數30萬+，生成視頻數700萬。同時，可靈AI憑借大幅度運動的合理性和物理世界特性的高度模擬能力在國內外社交媒體和技術社區受到廣泛討論。

圖源：可靈AI生成

不少海外科技愛好者、專業從業者體驗后紛紛表達了對中國AI的看好。美國著名創業投資公司Y Combinator CEO在海外社交媒體平臺轉發并稱贊了可靈生成的Demo；英國開源人工智能公司Stability AI前CEO Emad Mostaque則表示：“中國的AI技術有自己的優勢。”

自從OpenAI發布ChatGPT開始，大眾普遍認為OpenAI代表著AIGC領域的領先水平。哪怕Sora遲遲未上線，類似的觀點也沒有太大改變。但作為內測體驗過可靈AI的親歷者，小雷可以明確表示可靈AI無論是生成時長、效率，還是視頻質量，都是目前AI視頻生成產品的第一梯隊，尤其是真實風格場景上的表現令人印象深刻，許多AIGC視頻如果不細看，甚至無法發現是AI生成。

在Sora未正式發布前，外界很難判斷孰優孰劣，但快手可靈AI的出現讓我們看到了在AI視頻生成領域超越的可能。此外，快手方面還宣布其首部AIGC短劇《山海》將在本月上映，期待可靈AI給我們帶來新的驚喜。

3、字節即夢AI：進步明顯，AIGC短劇帶來行業新機遇

同樣試水AIGC短劇的還有即夢AI。在今年的上海國際電影節上，抖音聯合博納影業出品制作的AIGC科幻短劇集《三星堆：未來啟示錄》正式亮相。

純AI制作是該劇的最大亮點，借助包括AIGC劇本創作、概念及分鏡設計、圖像到視頻轉換、視頻編輯和媒體內容增強等十種AIGC技術，或將解鎖傳統影視公司與AIGC技術產品合作、發展的新路徑。

圖源：即夢AI生成

即夢AI是字節旗下的一站式AIGC內容專業創作平臺，支持文生視頻和圖生視頻，提供智能畫布、故事創作模式、以及首尾幀、對口型、運鏡控制、速度控制等AI編輯功能。

今年5月，剪映Dreamina正式更名為即夢AI，小雷也在第一時間進行了體驗。相比于成熟的AI作圖，即夢AI當時的AI視頻水平是有些讓人失望的，文生視頻的自然語言理解能力沒有問題，但視頻質量確實有待提高，特別是真實物理特性方面，即夢還需要繼續努力。

而圖生視頻由于給AI框定了方向，省去了想象組合步驟，視頻質量要比文生視頻好得多，但視頻主體大幅運動的情況下，還是會出現閃現、扭曲的問題。

當然小雷體驗的只不過是即夢AI的最初版本，經過一段時間的發展，即夢AI已經達到能生成AIGC短劇的水平，進步之大讓人驚喜。小雷期待已久的故事創作模式相信不久就會正式對外開放，屆時或許普通用戶也能創作自己的AIGC連續劇。

4、Runway：Gen-3重磅更新，演示效果不輸Sora

作為老牌AI視頻生成廠商，Runway的視頻生成模型Gen-1和Gen-2在初期收獲了不少好評，隨著競爭對手陸續推出搭載最新視頻生成模型產品，Runway因為模型落后，在很長一段時間內飽受爭議。

今年6月，Runway連夜發布了基于最新視頻生成模型Gen-3生成的各種演示視頻，電影級的畫面細節直接震驚了全體網友。7月2日，Runway宣布Gen-3向所有用戶開放使用，小雷原本也想嘗試一番，但每月12美元的會員費把我勸退了，因此我也只能從演示視頻畫面來分析一二。

官方展示視頻時長為10秒，人物生成中的人物面部細節和情感營造方面比較細膩，場景、風景生成中的元素、光影沒有太大的違和感。比如這個視頻，女子乘坐車輛穿過明暗交替的街道，外部光源照射在面部的變化十分自然，車外穿梭的車輛也沒有出現斷層等違和場景。

圖源：Runway生成

官方公布視頻的效果稱得上是驚艷。雖然不知道正式使用的效果如何，但就目前來說，個人認為不輸Sora。

5、Dream Machine：視頻質量波動大，使用成本高

6 月 12 日，初創公司 Luma AI 發布了新的 AI 視頻生成模型 Dream Machine（造夢機器），并且面向公眾開放測試。很快，不僅官方放出的一系列樣片，社交網絡上還出現了一大堆由網友通過“造夢機器”生成的視頻。

坦率地講，“造夢機器”官方視頻給小雷的第一印象還是挺驚艷的，除了人物主體和背景的一致性，最讓人驚訝的可能是光照的變化，包括亮度的變化也符合基本的物理規律。

但在實際網友創作和分享的內容中，即便是在那些相當驚艷的少數作品中，你也能看到或多或少的錯誤。小雷也試著用“造夢機器”創作了一段視頻，實際效果還是比較糟糕的：人物詭異的倒退，在背后拿著傘的怪異舉動，還有飛起來的雨傘。

圖源：Luma AI生成

“造夢機器”每月為普通用戶提供30次免費生成機會，除了免費用戶，“造夢機器”還提供三檔付費選項，包括29.99美元的標準檔、99.99美元的專業檔以及499.99美元的高級檔，區別是每個月可以生成視頻的次數。

對于普通用戶來說，這些定價比Runway的12美元還離譜，或許官方目標群體是那些通過“造夢機器”創作視頻在TikTok上賺錢的創作者吧。

更長、更真實、更多元，AI視頻不斷進化

首先，今年AI視頻最大的突破之一，就是生成視頻長度的延長。要注意的是，小雷指的是模型極限區域的時長，而不是消費端時長。之前Runway和Pika都只能生成出3-4秒的視頻，對于行業和用戶來說，實在是太短了，根本無法滿足長素材的需求。

小雷梳理了已對外公布的大模型視頻生成時長，其中Sora為60秒，Vidu為32秒。快手就厲害了，它提供的視頻續寫功能支持連續多次續寫視頻內容，在保證視頻一致性的前提下，最長生成3分鐘視頻，在視頻時長這塊，快手可以說是遙遙領先。

其次，是視頻大模型產品輸入方式的多元化。用戶不再局限于文字輸入，而是可以選擇圖像、視頻作為輸入，模型會根據用戶的輸入來生成視頻。比如，用戶可以上傳一張靜態圖，而視頻大模型則會根據圖片制作視頻。

最后，是人們對AI視頻最大的期待：足夠真實。上文有提到，生成視頻的技術難度遠比生成圖片高。此前，AI生成視頻有兩個硬傷。一是如何讓生成視頻符合物理規律，通常出現在人與人、或者人與物體之間進行復雜交互時；二是時間的連貫性，也就是讓AI記住視頻中的人和物體，即使被暫時擋住或移出畫面，之后再出現的時候也能按照物理邏輯地讓視頻保持連貫性。

這兩點在今年得到了很好的改善，比如這個快手可靈AI生成的視頻，當餃子進入小孩嘴里，部分餃子被完全遮擋，當再出現餃子時，吃餃子留下的咬痕和被咬后的餃子形態也能保持自然地繼續運動，保持了時間和物體的連貫性。