- +1
端到端、世界模型、車路云……誰將成為2025年“AI+交通”最熱詞?
1942年,科幻小說家艾薩克·阿西莫夫(Isaac Asimov)在他的短篇小說《轉圈圈》(Runaround)中第一次明確提出了“機器人三定律”,這一定律也被稱為“現代人工智能技術的基石”。
阿西莫夫可能沒有完全預見到,八十年后的世界會多么接近他的科幻夢想。
如今,人們生活在一個由人工智能滲透的世界里,這個世界在許多方面已超越阿西莫夫的想象。2024年,我們見證了一系列人工智能技術的創新與涌現。從AI視頻生成模型Sora到GPT-4o,一系列生成式人工智能新技術相繼問世、更新迭代,讓人感覺到似乎“未來已來”。
這一年,大模型、端到端、世界模型、車路云等已成為交通智能化領域最具革命性的技術應用,不僅提升了駕駛體驗,還為城市交通的安全性、效率和可持續性帶來新的可能。
展望2025年,隨著人工智能與交通的進一步深度融合,哪些技術領域充滿機遇?誰將引領新一年的行業發展?
BEV+OCC感知能力困局待解
對照著自動駕駛領域這幾年的行業熱詞按圖索驥,可以把握自動駕駛算法模型的發展脈絡。在特斯拉的帶動下,自2021年至今,自動駕駛行業這幾年的動態熱詞依次為:BEV+Transformer、OCC占用網絡、無圖NOA、端到端。
BEV(鳥瞰圖)網絡通過矢量化的鳥瞰視角檢測白名單障礙物,OCC通過體素化的占用網絡預測3D空間的占位情況,實現對通用障礙物的感知,到無圖NOA的階段,自動駕駛算法可以通過車道網絡實時建圖,構建道路拓撲。
再到今年大火的端到端,一方面,由于消除了傳統分模塊方案中各種小模型的冗余,計算資源得以集約化使用,神經網絡的參數量或規模得以進一步提升;另一方面,無論是分段式端到端還是一體式端到端,感知到決策之間的傳輸帶寬增加,信息損失減少,進一步增強了系統的感知能力。
對于駕駛而言,感知交通環境信息越全面、越及時,駕駛的安全性也就相對越高。因此,自動駕駛系統對感知能力的需求是沒有上限的。
BEV網絡固然可以檢測白名單障礙物,但能檢測到1000多種物體基本上就是目前BEV網絡的感知上限。OCC占用網絡可以檢測通用障礙物,但OCC算法的運算量跟隨網格的大小成倍變化,網格大小縮減一倍,OCC算法的運算量將增加8倍,受限于算力和實時性,OCC網格的大小一般只能做到10厘米左右,這就意味著它很難檢測微小物體。在很多情況下,10公分大的物體足以造成交通事故了。
不僅如此,那些和駕駛安全、效率、舒適性密切相關的天氣、光照、雨霧等復雜語義,也是目前的BEV+OCC所解決不了的,而光照和天氣恰恰是可以影響自動駕駛車輛行駛的關鍵要素。
數據正在成為端到端最大瓶頸
相較于分模塊的自動駕駛方案,端到端方案主要解決了兩個問題。首先,從人工邏輯代碼到數據驅動,人工智能真正擺脫了“人工”,從此可以使用海量的數據迭代模型的性能;其次,通過自動抽取信息,減少信息損失,可以充分利用數據中的信息。
在過去幾年的時間里,隨著Transformer+BEV+OCC的問世,分立級聯的感知模塊已經慢慢完成了到端到端感知的切換,自2023年下半年以來這波端到端狂潮引發的“從人工邏輯代碼到數據驅動”的轉變,其實主要體現在決策和規劃層面。
決策和規劃從一板一眼的手工編寫規則進化到基于神經網絡的經驗直覺,這種AI化和端到端化使得可以通過海量數據不間斷訓練優化駕駛策略,復現擬人且絲滑的老司機腳法。決策和規劃的進步是巨大的,相比之下,感知能力的進步并不大。
端到端最核心的一點在于將自動駕駛算法進行了全面的AI化,轉向了完全的數據驅動,但這意味著需要更加海量的數據進行模型的訓練。
但對于到底需要多少數據才能訓練出一個完美的自動駕駛模型,業界并沒有一個統一的標準。之前有報道稱,特斯拉2024年初的視頻訓練片段數量將近3000萬個。按照每個視頻片段30秒、30FPS的幀率、8個攝像頭計算,訓練圖片數量高達220億張。
此外,這種規模的訓練數據訓練出來的自動駕駛系統的等級仍未達到L3,自動駕駛系統能力每提高一個等級,需要的訓練數據量至少會提升一個數量級,也就是說,要達到L4,至少需要訓練幾億個視頻片段。
端到端雖然強化了數據的作用,但大模型的引入卻增加了龐大的數據標注需求。在基于語言模型的自動駕駛大模型中,其輸入是當前駕駛場景的圖片,其輸出是各類交通參與者、道路拓撲、交通信號標識的語義信息,這種模型不具備自回歸特性,進行有監督學習,其訓練需要海量的數據標注工作。
這引發了一個新的問題:如果端到端自動駕駛模型的訓練還需要繼續打標簽,在源源不斷產生的海量數據面前,還如何保證高效訓練?這也是一直以來影響端到端進一步發展的最大阻礙。
世界模型實現從感知到認知的躍遷
無論是BEV檢測的白名單障礙物還是OCC占用網絡檢測的通用障礙物,從本質上來說,都屬于基于判別式AI實現的對分立物體的單獨感知。
生成式AI大模型具備的超強理解能力使得視覺語言模型、大語言模型、世界模型可以建立對當下場景的整體認知,實現從感知到認知的階躍。
舉例來說,BEV可以檢測到一個行人,大模型可以通過意圖理解判斷出這是一個要橫穿馬路的行人。BEV網絡可以檢測到前方的一個車輛,大模型可以更進一步,通過長時序信息判斷出這是一個即將減速的車輛。
也就是說,在基于判別式AI的物體識別之外,生成式AI的意圖理解和長時序理解能力使其可以建立對整體駕駛環境的理解,更加貼近人類駕駛的知識邏輯。
自動駕駛真正的挑戰并不在于能否檢測(感知)出各個獨立的物體,而是要準確判斷(認知)物體的意圖,根據車輛、行人微妙多變的姿態做出準確的博弈和決策,只有建立了這樣復雜的語義理解和場景理解能力,才能像老司機那樣游刃有余地駕馭各種路況。而從部分到整體,從分立到連續,從感知到認知,正是大模型給傳統自動駕駛感知技術棧帶來的重大轉變。
世界模型的引入標志著自動駕駛向數據驅動智能的關鍵轉變,在這種智能中,預測和模擬未來情景的能力成為安全和效率的基石。
數據稀缺性問題,特別是在如數據標注等專業任務中,突顯了世界模型的創新性和必要性。世界模型的訓練數據是視頻序列,輸入是當前時刻視頻,輸出是下一時刻視頻,可以像語言模型拿自帶標簽信息的文字序列那樣進行無監督訓練,不再需要數據標注,這也就解決了傳統端到端模型訓練需要精確標注海量視頻數據的巨大難題。
同時,通過從歷史數據中生成預測情景,世界模型不僅規避了數據收集和標注帶來的限制,還增強了在模擬環境中訓練自主系統的能力,這些環境可以反映甚至超越現實世界條件的復雜性。
這種方法預示著一個新時代的到來,在這個時代,自動駕駛汽車具備反映某種直覺的預測能力,使它們能夠以前所未有的復雜程度響應各類交通環境。
世界模型可以通過模擬和預測其他車輛、行人和動態環境變化,從而幫助自主系統做出更安全、更高效的駕駛決策。例如,世界模型可以預測交通流量、路況變化以及潛在的風險因素,使自動駕駛車輛能夠提前做出反應,避免事故和優化行駛路徑。
盡管世界模型已經表現出巨大的技術潛力,但其發展和應用仍面臨挑戰。
首先,是數據的多樣性和質量。世界模型依賴大量高質量的數據進行訓練和測試。然而,獲取和處理這些數據往往需要耗費大量時間和資源。如何確保模型從多樣化和高質量的數據中學習,是下一階段世界模型在發展過程中迫切需要解決的問題。
其次,巨量的計算資源需求。訓練和運行世界模型需要大量的計算資源,特別是在處理高維數據和復雜場景時。
第三,模型的可解釋性。世界模型的復雜性使其決策過程難以解釋和理解,這將在醫療診斷、自動駕駛等應用場景中可能帶來潛在風險。
車路云,一個正在發生的潮流
如果說以上自動駕駛技術都是“舶來品”,那么車路云一體化則是一個帶有鮮明“中國智慧”的技術方案。
2024年,是車路云一體化全面落地的里程碑年份。面對汽車智能化、網聯化的大勢所趨,中國率先提出車路云一體化與智能網聯汽車融合發展的新路徑,并發揮中國在統籌規劃、基礎設施建設、信息通信技術等方面的優勢,積極開展試點。
1月,工業和信息化部、公安部、交通運輸部等五部門聯合印發《關于開展智能網聯汽車“車路云一體化”應用試點的通知》,這是“車路云一體化”首次被寫入國家政策文件。7月,五部門正式對外公布《關于智能網聯汽車“車路云一體化”應用試點城市名單的通知》,共計20個城市進入試點,從南到北、由西至東覆蓋全國。
與單一技術最大限度挖掘自身潛力不同,車路云一體化更多體現的是一種“眾智”,其通過集成通信基站、衛星通信和定位、各類傳感器、云控平臺等基礎設施,形成一個信息共享、高效協同的車路云網絡,為普通汽車、智能汽車、機器人、無人機等所有智能設備提供系統級的實時數據服務,同時能夠將實時數據信息在云平臺進行海量交互與智能分析,在系統層面解決全局安全、全局效率與全局博弈問題。
站在系統發展角度看,自動駕駛追求越來越極致的智能化,而車路云一體化則追求的是極致的系統智能。車路云網絡讓車輛不再是孤立的智能體,而是融入到一個更大范圍的智能交通生態系統中。
道路上布設的智能路側設施如AI數字道路基站、V2X通信設備能夠實時監測路況,通過多源數據融合技術,將不同類型、不同來源的數據進行有機整合,從而為后續的數據分析提供更豐富的素材。
根據車百智庫研究報告顯示,一輛L4級別自動駕駛汽車,每日通過車內外傳感器采集的行駛數據、環境數據和行為數據等,已達到10TB量級,是傳統汽車的5-10倍。其預計,在路上行駛的智能汽車每年上傳到云端的數據超過7萬PB。
在收集到海量的交通數據之后,云端利用大數據和AI算法,對數據進行分析與挖掘,從中提取有價值的信息。例如,通過對交通流量進行數據分析,交管部門可以根據實時交通流和道路情況智能調整配時方案,提高道路通行效率。同時,車輛也能接收到車路云網絡的信息,提前了解道路上的障礙和危險,從而采取相應措施確保行車安全。
在數據分發與共享過程中,保障數據的安全性至關重要。智能車輛所采集的數據涵蓋了多種傳感器類型和數據源,通過這些數據不僅能夠高精度地全面掌握城市各交通要道的狀況,其中還可能會牽扯到重要區域的地理信息、人員流量、車輛流量等敏感數據,以及臉部識別、聲紋、動作等個人信息,這些數據一旦被泄露或被非法調用和共享,不僅會侵犯個人隱私,還可能會危及到國家安全。因此,在數據采集后,要根據國家相關法律法規,對數據進行分類分級、降密、脫敏、加密等操作,為車路云數據的共享應用提供安全合規保障。
車路云一體化為城市交通管理的智能化升級提供了一條具有實踐意義的路徑。隨著技術的成熟,車路云網絡還將助力數字智能社會進入到一個整合系統,其將整合地面網絡、低空網絡、衛星網絡,形成空天地一體化的通感算網絡。最終,車路云網絡將發展成為智能交通、低空經濟、具身智能、AI智能終端的底層實時數據網絡,為智能設備的大規模運行與自主交互協作提供重要支撐。
未來十年,所有行業都值得用人工智能重新做一遍。毫無疑問,人工智能仍將是2025年最受關注的技術。從自動駕駛到車路云一體化、從交通基礎設施智能化建設到城市交通智能化管理,人工智能將越來越深地與交通領域進行融合,并拓展出更多超乎想象的全新應用場景,在為人們帶來更智能、便捷出行方式的同時,也重塑著智能交通的未來。
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司