“AI空間智能”未來已來，如何翻開人工智能下一章？

2024-12-28 20:17

來源：澎湃新聞·澎湃號·湃客

視覺，是人類感知世界的一扇窗，人類大約80%的知識都來源于此。

達爾文在《物種起源》中認為，約5.4億年前的寒武紀，出現了單個感光細胞的生物體。視覺能力被認為引發了寒武紀生命大爆發，這是一個動物物種大量進入化石記錄的時期。一旦有了視力，生物就會變得更加積極主動，神經系統開始進化，視覺變成了洞察力，因此視覺讓生物的進化加速。

圖像和視頻模型與大型語言模型的出現預示著人工智能在視覺領域的潛力，但它們只是觸及了更大可能性的皮毛，當前只是人工智能的“第一章”。為了實現更高水平的人工智能，空間智能（Spatial Intelligence）作為人工智能從二維空間向三維世界進階的一把鑰匙浮出水面，它不僅要讓人工智能能夠“看見”世界，還要讓其能夠理解三維世界，并在其中進行互動和學習，這是從單純的視覺識別到真正理解、操作現實世界的跨越。

這一技術概念的提出，將為包括具身智能、自動駕駛、車路云一體化等在內的人工智能場景應用翻開新的一章。

世界模型觸發人工智能“靈性”

如今，我們正站在智能時代的轉折點上，空間智能成為推動人工智能突破當前能力限制的關鍵。正如視覺能力催生了生物智能，空間智能有望引領人工智能進入一個全新的發展階段，但必須讓人們看到落到實處的可能。

被譽為“AI教母”的李飛飛教授首次創業即選擇了空間智能方向，引發了行業對這一領域的廣泛關注。

在溫哥華舉行的2024年TED大會上，她發表了題為《有了空間智能，AI將會理解現實世界》的演講，將空間智能描述為人工智能發展的下一個重要里程碑。“機器視覺是遠遠不夠。”李飛飛說，“視覺化為洞察、看見成為理解、理解導致行動，行動的沖動是所有具有空間智能的生物的天性”。

人們所熟知的人工智能大模型是擁有超大規模參數（通常在十億個以上）、復雜計算結構的機器學習模型，通常能夠處理海量數據，完成各種復雜任務，如自然語言處理、圖像識別等。傳統的通用大模型擅長處理文本、語音、圖像和視頻等四類數據，但對機器人來說，理解空間坐標、知道自己在什么位置、如何進行目標抓取才是核心。這也進一步強調了空間智能與現有人工智能技術的本質區別。

空間智能被認為是實現通用人工智能（AGI）的關鍵一環，可以理解為機器在三維空間當中的感知、理解和交互的能力。它在二維世界的基礎上增加了深度信息，變成三維且極具立體，目標是將人工智能模型從像素的2D平面提升到立體的3D世界，賦予它們與人類一樣豐富的空間智能。這樣的空間智能最后呈現出來的方式可能是兩個虛擬的智能體的交互，也可能是成為機器人的“大小腦”，進而實現實體交互。

盡管OpenAI的Sora模型可以文生視頻，但就本質而言，它仍屬平面二維模型，沒有三維立體理解能力，只有通過空間智能，才能看到世界、感知世界、理解世界并讓智能體自主做事，從而形成良性閉環。

形成空間智能的核心在于建立“世界模型”，讓機器人具備類似人類感知的“靈性”。具體來說，需要建立能夠對空間幾何與物理過程進行精準建模、理解與推理的“世界模型”，使包括視覺、力覺、觸覺等在內的各類機器人傳感器具備人類感知的能力。

世界模型的基本思想，源自于對人類和動物如何理解世界的觀察。我們的大腦能夠模擬可能的未來場景，并基于這些模擬做出決策。借鑒這一機制，世界模型旨在為人工智能系統提供一個內部環境的模擬，使其能夠預測外部世界的狀態變化，從而在不同情境下做出適應性決策。

這個模型通過無監督的方式從未標記的數據中學習，從而無需明確指示就能理解世界動態。該模型架構由六個模塊組成，包括執行控制的配置器、理解當前狀態的感知模塊、預測的世界模型、決策的成本模塊、規劃行動的行動模塊，以及追蹤狀態和成本的短期記憶模塊。

在強化學習領域，世界模型已經顯示出其強大的潛力。通過在模型中模擬環境，人工智能不僅可以在虛擬環境中“想象”執行動作的后果，還能夠在實際執行之前評估不同行動方案的效果，極大提高了學習效率和決策質量。此外，在自主決策系統，如自動駕駛汽車和機器人中，世界模型能夠幫助系統更好地預測和應對可能的變化，提高了安全性和可靠性。

世界模型的最大優勢在于其環境模擬與預測的能力，這種能力使得人工智能系統可以在進行實際操作之前，通過內部模擬來評估不同行為的后果，這在資源有限或風險較高的情境下尤為重要。世界模型還支持決策支持和規劃能力的提升，允許系統在多個可能的未來中“看到”并選擇最優路徑。

然而，世界模型的構建和應用也面臨著顯著的挑戰。首先，環境模擬的準確性極大地依賴于模型的復雜度和所擁有的數據質量。要精確地預測復雜環境中的動態變化，需要大量的數據和強大的計算資源，這對于資源有限的項目來說可能是一個限制。

其次，構建一個能夠泛化到多種不同環境的世界模型是極具挑戰性的，因為現實世界的復雜性和不可預測性遠遠超出了任何現有模型的處理能力。

盡管世界模型在理論上具有巨大潛力，但在實際應用中仍然存在許多未知數。例如，如何確保模型的預測準確性，如何處理模型可能的偏差，以及如何在不同的應用場景中調整模型參數以適應特定的需求等問題都需要進一步的研究和探索。

世界模型的潛在應用范圍極為廣泛，不同領域對于其理解與預測能力有著差異化的要求。

以自動駕駛為例，世界模型需要實時精準地把握道路狀況，并對其變化趨勢進行精確預測，重點聚焦于對環境的瞬時感知以及復雜變化趨勢的預估判斷。在機器人技術領域，世界模型對于導航、物體識別檢測以及任務規劃等關鍵任務起著不可或缺的作用，要求其能夠精準地解析外部動態環境，并構建具有交互性和實體體驗感的環境場景。而在虛擬社會系統模擬方面，世界模型需要敏銳地捕捉并預測更為抽象的行為動態，諸如社會交往互動以及人類決策制定等過程。

目前，空間智能的發展處于起步階段，但整體發展速度非常快。Omdia最新報告顯示，全球空間計算市場規模預計將在2029年超過100億美元，在消費者和企業用例中被廣泛采用，其累計平均增長率（CAGR）將達18%。另據泰伯智庫預測，到2030年，中國元宇宙市場規模將到達8500億元；其中與空間計算相關的市場在2030年可能達到3400億元，約占整個元宇宙市場的40%。

空間智能開啟無盡想想象力

從技術演進角度看，世界模型代表了人工智能領域的一種嶄新思維方式。它通過將感知信息轉換為關于外部環境的抽象模型，使得智能體能夠有效預測和理解周圍世界的動態變化。世界模型設計的核心在于利用歷史數據，建立一個能夠模擬現實環境的數字框架。

以自動駕駛為例，世界模型不僅可以幫助智駕系統根據歷史經驗預測其他車輛和行人的行為，還能在特定情況下提前調整行車策略，極大提高行駛安全性與效率。這種基于物理規則和常識的數字世界生成能力，是以往任何人工智能技術都無法比擬的。

而空間智能則是世界模型的自然延伸，可被視為人工智能從“自發感知”走向“自主認知”的邁進，其讓人工智能技術開始突破信息空間的局限，向真實世界的三維空間擴展，進一步提升了人工智能在實際環境中的適應能力。它不僅是人工智能技術的再次進化，更是人工智能系統朝著真正理解和交互我們所生活的三維世界邁出的關鍵一步。正如語言智能讓人工智能能夠理解和生成人類語言一樣，空間智能將使人工智能能夠理解和操作物理世界。

相較于傳統的圖像識別技術，空間智能要求人工智能具備三維空間的理解與實時行為調整能力。通過對動態場景的分析與決策，人工智能不僅能夠識別物體，還能夠理解它們之間的相對位置和運動軌跡。

比如，在復雜的城市交通環境中，自動駕駛系統必須利用世界模型來預測交通流動，同時依靠空間智能確保能夠有效應對突發的交通情況。此種雙重能力的結合，讓自動駕駛的安全性和可靠性將發生質的飛躍。

空間智能與世界模型的結合，不僅拓寬了人工智能的應用場景，也推動了算法的進一步發展。未來，兩者將為智能體提供更高層次的認知與推理能力，使其能夠在模擬的虛擬環境中進行反復實驗，從而優化決策在現實世界中的應用。

如此，科學家和工程師們可以在無風險的條件下，測試和改進智能算法的表現。這種在虛擬環境中的訓練，為現實中的應用提供了更加保險的保障，對于推動技術的成熟具有重要意義。

在日本，空間智能已全面鋪開。比如日本正在把整個東京進行3D數字孿生化，這是實現AI空間智能的關鍵一步。這一數字孿生模型的規模非常大，而且它對東京的刻畫也非常之精細，其絕對位置精度大約在10cm以內，不僅包含了LiDAR點云，還有詳實的CityGML和實時交通數據。根據日本的預期，到2030年將實現一個完整的數字孿生城市，從交通到能源做到信息無縫融合，越來越多的城市房屋、工廠將轉化為模擬數據。

對于城市進行的數字孿生其實也就是基于感知的城市數據，在網絡空間上像“孿生”一樣再現建筑物、道路等基礎設施與經濟活動、人流等各種要素。也就是說，可以通過基于從物理空間各個領域的活動中獲取的實時數據，在網絡空間中進行高級分析和模擬，并將其結果以交互式的形式高速反饋到物理空間。

正如英偉達高級研究科學家Jim Fan所言，未來的城市管理將依賴于實時圖形引擎中的模擬和集群系統，這將使得機器人和自動化設備能夠快速適應復雜的環境。機器人將不會孤立地進行訓練，它們能夠在實時圖形引擎中進行模擬，并通過一個巨大的集群進行擴展，以生成下一個數萬億級別的高質量訓練數據。

通過在高精度模擬環境中訓練，機器人能獲得豐富的訓練數據，并在復雜場景中快速學習。這種方法將推動機器人從虛擬世界到現實世界的順利遷移，提升其在實際應用中的效率和智能。

與傳統的城市模擬相比，數字孿生能夠提供實時反饋，并隨著城市的動態變化而調整其狀態，這使得城市管理變得更加靈活和高效。

例如，在新南威爾士州，通過數字孿生和人工智能結合的技術，交通管理可以實時調整以減少擁堵，從而最大程度地提高社會效益。

在中國，隨著交通基礎設施智能化升級的全面開啟，實時數字孿生也開始在車路云一體化建設中發揮作用。蘑菇車聯創始人兼CEO朱磊曾表示，車路云一體化的本質是“通感算”網絡，核心功能是對實體世界實時數字化，通過深度融合通信、感知、計算的能力，為所有智能設備提供實時的數據服務，助力交通乃至更多產業領域實現更高效協作、決策和處理。

通過在路口鋪設具備“通感算”能力的AI數字道路基站，并與AI路側邊緣計算系統（AI-MRS）相互配合，交通管理者能夠獲取路口300米范圍內所有交通參與者的動態信息，實時構建數字孿生系統，為范圍內所有車輛提供實時數據服務。

同時，將實時數字孿生系統嵌入車載大屏，駕駛員可以清晰看到路口全量動態信息，從而進一步掌握更為全面的路況信息。由于該數字孿生系統與實際物理世界時延小于0.1秒，可以做到數字孿生和現實交通環境之間的實時數據同步，為駕駛員作出最準確的駕駛決策提供可靠依據。

在醫療領域，空間智能技術可以對醫學影像數據進行三維重建和分析，幫助醫生更準確地診斷疾病。例如，對CT、MRI等影像數據進行三維重建，可以更清晰地顯示人體器官和病變的位置、形狀和大小，為醫生提供更準確的診斷信息。同時，空間智能技術還可以為醫生提供手術導航和輔助決策，通過對患者的身體結構進行三維建模和分析，醫生可以更好地了解手術部位的解剖結構和血管分布，提高手術的準確性和安全性。

五億年前，視覺的出現顛覆了黑暗的世界，引發了最深刻的動物進化模式。過去十年，人工智能的進步同樣令人驚嘆。當我們開始為計算機和機器人賦予空間智能，就像大自然開啟了生物多樣化時代，這場數字寒武紀大爆發的全部潛力才會完全展現，人工智能的未來將由此更具無盡想象力。

特別聲明

本文為澎湃號作者或機構在澎湃新聞上傳并發布，僅代表該作者或機構觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報