下載客戶端

登錄

Sora理解物理世界嗎？肖仰華、傅盛說法也不一

澎湃新聞記者宦艷紅

2024-02-21 16:53

來源：澎湃新聞

·視頻大模型Sora一經登場，逼真的視頻呈現讓全球科技圈沸騰。Sora背后的技術架構是怎樣的，它的出現是否意味著AGI進程從10年變成了1年？Sora到底有沒有理解物理世界的能力？以Sora為代表的AI技術將如何影響人類社會？我們又將如何應對？

2月20日，澎湃新聞邀請復旦大學教授、上海市數據科學重點實驗室主任肖仰華，獵豹移動董事長兼CEO、獵戶星空董事長傅盛，全國政協委員、上海科技館館長倪閩景，做客澎湃新聞直播室，共同探討有關Sora的熱點話題。以下節選自直播實錄。

肖仰華：Sora的出現在意料之中也在意料之外。(00:53)

Sora的出現在意料之中也在意料之外

澎湃新聞記者王瑞（以下簡稱王）：三位看到Sora生成的視頻后，第一感受是怎樣的？

肖仰華（以下簡稱肖）：意料之中也意料之外。

所謂意料之中，是因為ChatGPT誕生之后，業內專家都普遍預測大模型一定會從純文本的大模型向多模態發展。所謂多模態指的是圖文混合、和視頻相結合的這類大模型。

意料之外是指當你親眼看到了Sora生成的視頻具備如此的逼真度，沖擊力還是很激烈的。它對模擬物理世界的逼真程度，達到了空前的水平，是之前人工智能技術從來沒有做到過的。

因為它是完全基于用數據喂養出來的大模型生成的，不再是通過包括建模、渲染等傳統的電影工業技術做出來的，所以我認為它可能會帶來非常深遠的影響，它實際上代表的是人工智能對現實物理世界的模擬達到了一個全新的高度。它會帶來一系列的產業影響，可能對整個人類社會包括教育都會帶來非常深遠的影響。

倪閩景（以下簡稱倪）： Sora生成的視頻中，很好地把握了人與人、人與物之間微妙的關聯，這也是過去很多生成式視頻做不到的，所以令人非常震驚。

傅盛（以下簡稱傅）：Sora的視頻就效果來說是非常震驚的，它超出了我們對這個行業當前的認知。OpenAI作為一家科技企業，市場宣傳方面的能力也是超一流的。他們選擇放出來的每個視頻，幾乎都是今天視頻制作市場上的難點和熱點，很多都是用傳統建模方法做視頻難以企及的。譬如幾只小狗在玩雪花的視頻，對于傳統技術來說，雪花是最難制作的。

“相比ChatGPT，Sora技術突破有限 ”

王：Sora也是OpenAI的產品，它和之前的ChatGPT有何聯系？

肖：ChatGPT和Sora都使用了Transformer神經網絡架構，本質上是一種大模型。這樣一種大模型為何會帶來這么好的效果呢？

因為世界本質上是非常復雜的，非線性的。我們傳統的模型只能建一些線性的簡單關系。像這個流體力學之類非常復雜的現象，用傳統的模型非常難建模。但是今天我們看到基于Transformer深度神經網絡的大模型架構，Sora已經具備了對現實世界復雜現象非常逼真的建模能力，這是Sora帶來的一個新高度。

傅：現在我冷靜下來再想想，當然也去看了很多文獻，我又覺得Sora這個事本質上是因為視頻是一個需求很旺盛的巨大行業，才造就了熱潮。從技術上來說，我現在的觀點是它沒有那么大的突破。

其實如果深入分析下去，你會看到Sora是使用了跟以前完全不同的一條路徑去構造了一個世界，它更像我們人的本能認知。很多傳統做視頻建模很麻煩的事，可能對于它來說并沒有那么難。可能對于它來說，生成水面的倒影、眼鏡的反光和生成雞蛋的畫面，難度是一樣的，它是一種直覺認知。

我一直有個觀點，就是事實上如果沒有大語言模型作為基座，今天Sora在視頻領域是不會產生這么大突破的。

我想表達的一個觀點是，其實語言對世界的認知是遠超視頻的，雖然視頻看起來更讓我們有直覺的沖動，但語言的抽象和邏輯是最難理解的。一旦語言對世界的描述建立以后，視頻的這種抽象和描述相對來說是簡單的。當然，在工程角度，視頻可能因為數據量更大，工程難度更高。但如果沒有大語言模型，今天視頻是做不到這個能力的。其實對圖像的理解是我們每個人的直覺，其實我們做夢就是一個還原世界的過程。

傅盛認為Sora的技術突破不如ChatGPT。(00:43)

OpenAI的勝利是技術信仰的勝利

王：在Sora之前，也有很多公司做文生視頻，但時長都比較短。Sora和他們的技術路線不一樣嗎？

傅：我一直有個觀點，就是OpenAI能走到今天與其說是技術積累的勝利，不如說是技術信仰的勝利；與其說是它有什么超牛的技術，還不如說它堅持在別人不相信的道路上勇敢前行。

其實即便到前年之前，OpenAI在硅谷都不是一個被看好的公司。但它自成立之初就相信一件事：讓機器讀大量的文字，它就能理解語言，甚至理解世界。這件事其實以前大家都不相信，只有它相信，所以它就堅定的去干，直到ChatGPT出來后，所有人突然發現，原來可以做成這樣。ChatGPT的底層架構 transformers最早是谷歌發布的。

我覺得之所以會有Sora是因為他們相信通過大語言模型的加持，能夠干到一個你想象不到的效果。

我覺得Sora和其它文生視頻的底層技術沒有本質區別，可能沒有OpenAI這么堅定而已。所以我想說Sora的重大突破并不一定代表技術上的重大升級，你更可以理解成是一個暴力美學，因為相信這事能成，所以投的資源比其他人大一百倍，可以不計成本投入。我相信這是巨大的算力和很多的嘗試最后試出來的。

沒有哪個技術會突然有一天從哪里冒出來，那可能是我們讀武俠小說讀多了，總覺得在深山老林里面有個人拿了本寶典，最后全世界都被他征服了。但技術的演進不是這樣的，技術底層的差異化并沒有那么大。技術信仰使得他們全力以赴，從而有了一個產品級的突破。

我判斷Sora不會是獨一無二的，很快文生視頻的行業都會從四秒、十秒變成六十秒，文生視頻會像雨后春筍一樣出來。

肖：我很贊同傅總剛才說的，OpenAI的勝利本質上是一種信仰的勝利，是對信仰的長期堅持的勝利。

歐洲近幾百年流行的虛無主義，認為人類對世界的認知可能只是認知世界的一種方式而已。我們已經建立起來所有知識體系，可能不過就是人類對世界的一種有限的認識方式。

大模型的成功恰恰也證明了這一點，我們完全可以用數據驅動的方法讓機器學習，它建立的對世界的建模和認知，有可能遠遠超過我們人類對這個世界的認知方式，所以我們人類可能不能太過自信。

最近楊立昆等專家指責Sora（編者注：楊立昆（Yann LeCun）：圖靈獎得主，Meta公司首席科學家、AI團隊負責人。在他看來，僅僅根據提示詞生成逼真視頻并不能代表一個模型理解了物理世界，生成視頻的過程與基于世界模型的因果預測完全不同。他認為Sora并不能模擬物理世界，在社交平臺上發文稱 “這里存在‘巨大’的誤導。”）楊立昆代表的是人類的意志，他覺得我們人是有作用的，我們人類專家所積累的這些知識經驗，應該在世界建模中扮演重要角色。但實際上我傾向于認為Sora擺脫了專家所謂的一些知識干預后，可能是更接近世界本源的，更準確的一種建模方式。

肖仰華覺得用數據驅動的機器對于世界有自己的理解。(01:20)

Sora到底能理解世界嗎？

王：關于Sora對物理世界的理解與模擬，現在也有很多不同的觀點，三位是怎么看？

肖：實際上以往我們認為的理解都是以人為中心的，我們說理解的主體都是人，如果你不承認機器的主體地位的話，是談不上所謂的理解的。

但我們人類理解世界的結果也是為了表達世界，也是為了再去創造一個新的世界。像Sora這種工具，它能夠非常高精度的建模這個現實世界，可以視作一種理解能力。所以對機器而言，可能建模就是理解。

我們人類對這個世界重現都是通過一些簡化的公式去重現的，但Sora可以非常高精度的重建整個物理世界。從這個意義上來講，它的建模水平可以說是遠超人類水平。

倪：我覺得它至少理解了什么是人，什么是櫻花，什么是雪花，什么是街道，否則也不可能生成這些東西。但機器在表達時，會按照它看到的、認為的規律來生成，這有可能和我們平時看到的規律不一樣。因為我們人觀察東西也永遠是片面的，我們所有的觀察只是局部。我看到你的前面，但看不到背面，看見了外面看不見里面。

傅：這個問題在我腦海里這兩天也是激烈變化。雖然在感官上Sora生成的視頻非常驚艷，但在對世界的理解度上，我覺得它肯定是不如語言模型本身的。

我注意到一個細節，其中有個中國舞龍視頻，如果你認真看它后面的每一個中國字都不是中國字，它只是長得像中國字的一個圖形。

所以我認為Sora某種意義上一定是具備對世界的某種理解。但如果你說它把整個物理世界復刻了，我覺得這肯定不是真實的。我認為它對世界的理解還停留在比較初級的水平。就像一個五六歲的小孩，對世界的理解并不深，但畫圖方面是一個天才兒童。我認為這也是電腦特性決定的，計算機的能力和人類能力并不一樣，對我們來說很難的事情對它來說可能很簡單，畫畫對計算機來說就是一堆的像素點打出來，這個色階正好符合你的審美。

所以我覺得僅以視頻本身去驚嘆Sora對物理世界的理解到了一個什么高度，這點我是絕對不認同的，“AGI因此由十年變一年”，這個我也不認同。

人才、數據、算力，國內公司缺哪樣？

王：說到大模型公司，國內也涌現了非常多企業，現在國內的這個情況和大環境是怎么樣的？

肖：其實從ChatGPT開始，很多人就問為什么我們沒有率先推出這類產品，總體上我們國內的態勢應該來講處于在跟隨學習，差距如果能夠不拉大，已經算是相當不容易了，應該說是在努力地追趕。

大模型需要的無外乎就是人才、數據、算力，我倒不不認為人才真的是我們的短板。大模型本質上是一次工程創新，我們國家最不缺的就是工程人才，很多國外團隊中也頻頻出現華人的身影，所以從人才來講，我不認為我們有多大的劣勢，我們的學生完全能勝任。

再來看數據，當然大家說數據有這樣那樣的問題，但我也不認為數據是我們根本短板。我們可以集中力量辦大事，我們有數據要素市場，也在推動這個數據語料聯盟，只要齊聚人力就能把數據給治理好。

可能現在最直接的因素還是算力上面，Sora說白了也是一個大力出奇跡的活，但我們現在算力跟不上，是一個明顯的短板。

另外，我認為可能還有我們很缺的因素就是所謂的信心。我覺得可能國內對于AGI這條道路信心不足，對AGI理念的堅持從文化上來講接受度不高。我們中國人還是強調經濟務實啊，都喜歡跟哪個場景一結合就能夠去變現，快速變現。但真正說要靜下心來坐冷板凳，在一條很有風險的道路上做一個巨大的投入，我看到的還是很少。這本質上還是一個信仰和信心的問題。

傅：AI本質上是個平權工具，它讓很多以前離技術很遠的人能夠很快地用上技術成果。當這個工具變得足夠廉價和便宜時，哪怕質量差一點，也可以讓更多人去完成創作。所以我覺得Sora在顛覆一個行業的同時也在啟動一個行業，新的行業一定會蓬勃發展，會有越來越多的人投入到這個行業，越來越多可能沒有看過攝像機的人也能做出好視頻。

我相信Sora今天不肯開放，還在內測，肯定時因為成本還很高。但我估計很快就會有成本是Sora的百分之十，但質量也是Sora百分之十的這樣的工具出現。所以我覺得這個行業會百花齊放，機會是非常大。

傅盛：Sora的成功得益于大語言模型的成功。(00:52)

絕大部分人還是低估了AI的影響力

王：Sora出現之后，有些人很焦慮，AI的快速發展可能對當下的生活、未來就業、勞動力等都會影響。

肖：大家焦慮、擔心可能有幾個原因：

首先我們研發這些技術的人很擔心，為什么？因為現在AI很多技術對我們來講還是黑盒，我們并沒有完全弄明白它的這個原理。AI生成的過程和結果很大程度仍然是不可控的。

第二個是社會層面的擔心，就業可能會是非常直接的影響，AI已經能夠實現我們人類的很多能力。人機協作實際上會極大的降低人員的需求量。

從更長遠來講，最大的擔心還是AI是個先進生產力，勢必要求我們整個生產關系，整個上層建筑適應這個生產力。但我們整個社會結構的調整，適應這個先進生產力的過程相當緩慢，但AI發展卻很快速，所以也曾有人呼吁過按下AI發展的暫停鍵。AI哪些該做，哪些不該做，可能還是要設立一些應用的原則和邊界，來確保社會平穩有序的過渡到了適應先進生產力的階段。

傅： AI雖然這么熱，其實我覺得絕大部分人還是低估了AI的影響力，其實它影響的不僅是視頻，比如現在生命科學、材料，包括核聚變能源，我覺得它都會產生影響。核聚變這么多年沒有太大突破，我相信AI介入以后可能會超出人類的想象。

所以它是一場底層革命，任何社會的每一個層面，今天我們不能成為AI原住民，我們就會被淘汰。

技術的進步是不以哪個人的意志為轉移的，按暫停鍵是摁不住的，只能是跟著技術的變化去適應技術，所有社會生產力的發展，其實最根本的變革都是科學和技術。所以今天我們肯定要擁抱AI。全社會尤其是教育要率先變革。

倪：現在我們是處在科技的寒武紀時代啊，寒武紀大爆發的特點就是會產生稀奇古怪的東西，但也有東西出來很快就消亡了。很多投資人現在很痛苦，因為以往的投資邏輯改變了。但這個過程也許對我們人類來說是非常有意思的一個大爆發階段。過去寒武紀可能是要幾千萬年，現在可能十年就會進化到一個超出想象的階段，變革的速度越來越快。

對我們教育者來說，也會產生很多反思。機器學習到底對我們人的學習會帶來怎樣的啟示？我覺得我們可能會更多的人會投身到這個問題的學習研究中。對人類的學習進化的研究也會迎來一個爆發期。教育的變革絕對不只是老師的變革，我覺得是所有教育人，甚至全社會都要反思的。