支持AI視頻處理的高容量流媒體加速卡方案

2023-08-29 14:00

來源：澎湃新聞·澎湃號·湃客

編者按：實況直播業務隨著流媒體市場的發展增長迅速。與傳統流媒體“一對多”的模式不同，直播流媒體高交互的特性和 “多對多”的架構對時延的要求越來越高，傳統基礎設施部署和硬件已經不能高效處理這類需求。在此背景下，AMD專為直播互動流媒體處理打造的新一代Alveo? MA35D加速卡應運而生。LiveVideoStackCon 2023 上海站邀請了來自AMD AECG的謝旻，為大家分享關于MA35D的基本架構和功能，以及該卡在各個領域視頻解決方案中的應用。

文/謝旻

整理/LiveVideoStack

大家好，我是來自AMD AECG數據中心的系統架構師謝旻，AECG的前身即FPGA廠商賽靈思，我所在的小組主要負責數據中心計算、網絡和存儲方向的研發工作。本次要和大家分享的是AMD近期推出的新一代多媒體視頻加速卡，它主要應用于視頻處理場景，我們內部將它稱為異構加速卡，行業同仁更認可將其稱作視頻處理單元（VPU）。AMD或賽靈思此前的主要業務方向是研發數據中心級加速器卡，因而大家可能對此次媒體加速卡的發布感到驚訝，實際上這背后伴隨著深厚的研發背景。

賽靈思時期，我們的目標是實現FPGA在數據中心的算力落地，通過將FPGA包裝為PCIE擴展卡并部署在服務器上，使客戶可以按照自身需求調用加速卡的算力，最終推出了Alveo系列加速卡U200、U250和U280。

隨著FaaS（FPGA as a service）的落地，我們的工作進一步轉向應用化并發現了媒體加速方面的前景，因而開始進行編解碼器和IP核的自研設計。賽靈思還專門收購了編解碼器公司以推動VPU的開發，從而促成了上一代視頻流加速器卡U30和U50的誕生。

我們認為，雖然傳統的流媒體服務以及相關的視頻處理、壓縮是在服務器級CPU上的軟件中完成的。但隨著分辨率的增加，幀數要求提高，流媒體體量的增加，直播和互動流應用對低延遲的要求變得更加嚴格，傳統的CPU不能高效地處理這種場景。因而我們開始尋求異構加速的方法，用專業的芯片/IP來處理視頻流。

基于以上背景，我們認為下一代視頻加速卡要支持高質量、高密度、低時延的視頻處理，并要具備更好的拓展性，才能滿足當前低延時、高交互、大流量多媒體應用環境的需要。

?我們將此次推出的新一代加速卡命名為Alveo MA35D Media Accelerator，它是業界首款基于ASIC的5nm視頻加速卡，在我們內部的芯片代號為supernova。

與我們上一代產品（Alveo U30）和傳統Xilinx芯片的聯系不同，它完全脫離了 FPGA，是一個專門應用于交互式流媒體大規模應用場景的針對性解決方案。它內部包含很多專用視頻單元和最先進的IP核，通過PCIE Gen 5.0和LPDDR5保證帶寬，充分助力視頻加速服務。

Bluewave Consulting發布的調研成果促使我們下定決心推出新一代流媒體加速卡，該項研究指出了兩點，一是全球視頻流媒體市場正在快速增長。據預測，流媒體的市場價值將從 2022 年的略高于 600 億美元增至 2028 年的超過 2130 億美元，復合年增長率約為 20%。在美國這很大程度上要歸功于 Netflix、Amazon Prime、Hulu、Disney+、HBO 等服務商，國內現階段也存在諸如優酷、騰訊、愛奇藝、抖音、快手、Bilibili等大量視頻平臺，甚至微博、微信和知乎等應用也在逐步推出流媒體服務，幾乎所有公司都在進行流媒體方向的嘗試。

二是流媒體服務正在迎來轉型。隨著流媒體市場的增長，直播業務所占份額越來越大（例如國內的抖音等直播平臺），至2021年已占到總量的70%。

傳統流媒體服務架構的形式為廣播流媒體，是“一對百萬”的模式，該架構下視頻的輸入源一般較少。以體育賽事的轉播場景為例，場外的轉播車組織現場的數十臺攝像機拍攝賽事畫面，經過剪輯上傳至云端數據中心/核心網，過程中傳輸的流相對并不多。隨后視頻流被分發至CDN，廣大用戶通過ISP訪問CDN獲取視頻畫面。

雖然整個傳輸路徑較長，延遲相對較大，但該場景對實時性的要求不大，并且時延相對可控。同時由于輸入流較少，因而對轉碼的要求也不高。

迅猛增長的直播市場與傳統點播場景不同，每個人都能生成自己的流媒體，個人產生的視頻流可能與其他流混同，被不同人群在不同地點使用各異的終端設備觀看，過程中還伴隨著低時延和高交互等等要求。

這種場景的實際應用也越來越多，如online party、遠程醫療、云游戲場景和Zoom、Microsoft Teams等在線會議軟件。不同用戶使用的設備可能不同，導致輸入源的格式、清晰度等等屬性五花八門。而以上場景都具備高交互性，對時延的要求相當高（如云游戲的時延要在10毫秒內），因而我們希望研發新一代芯片，能夠實現低時延、高容量、多路輸入（不同格式，不同速率，不同size)、多路輸出、多流交互的視頻處理。

新一代直播場景是“百萬對百萬”的多對多模式。由于每個人都會產生視頻流，流的數量將進一步增加，并且突發式的增長會越來越多。直播的高交互性使視頻流傳輸可能將更多采用邊到邊傳輸，避免發送至云端數據中心。用戶們使用的終端設備不盡相同，對視頻流分辨率和碼率的要求也不一樣。

為了應對直播場景帶來的技術挑戰，Alveo MA35D支持32路流的1080P60 ABR轉碼；每通道功耗僅有1W，峰值功耗約35W；4K編碼的最低延時達到8毫秒，1080P可以做到單幀2ms；支持做成單個U.2/M.2 的子卡或是多卡集成部署，支持筆記本、平板、園區、數據中心等多種不同部署環境，適配用戶的不同需求。與此同時，它還具備22 TOPS AI算力（INT8），可以通過AI技術來賦能智能視頻處理。

上一代U30的“U”代表通用，而MA35D的“MA”代表媒體加速器（Media Accelerator），表示該卡專為媒體加速場景設計。和上一代相比，MA35D實現了全面提升，它的通道密度提高了 4 倍，每通道功耗降低2倍，壓縮效率效果提高2倍，時延降低4倍。在實現以上提升的基礎上，功耗僅為上一代的一半。

接下來介紹該卡的技術細節。首先四個位于該卡芯片四角的獨立編碼器和兩個解碼器支持當前主流編碼標準和下一代AV1標準；自適應比特率（ABR）縮放器支持變碼率、恒定QP、CBR、VBR等多樣化變換；合成器（Compositor）引擎支持多流分塊拼接、分層疊加等視頻合成處理，它是可編程的，可按照客戶自身需求改變輸出；VQ 前瞻（Look-Ahead）引擎用于在編碼前分析視頻流的動態特征，配合編碼器實時優化參數；視頻質量（VQ）和體驗質量（QoE）引擎作為在線質量分析引擎可以將編碼后視頻的質量分析結果實時反饋至編碼器和AI模塊，動態調整編碼器設置以達到更好的視頻輸出質量；AI處理器可以對視頻進行一些簡單的分類和檢測處理，依據結果實時調整編碼器參數，改善視頻質量。

我們也致力于改善編解碼器的壓縮效率。據AMD內部測試結果顯示，在達到同等視覺質量的前提下，以X264 VeryFast為基準對比，AMD H.264編碼器可實現24%的碼率節省，H.265編碼器可節省47%，AV1編碼器可節省高達52%。如果加入AI處理環節，壓縮效率還將進一步提升。

上圖展示了X265和AMD AV1編碼相同視頻的實測VMAF測試結果。可以看到在同等條件下，AMD AV1編碼視頻的質量接近于X265 Slow，尤其在碼率較低時表現相當好。

AMD深度耦合前述的各類硬件單元形成了上圖所示的視頻處理管道，視頻解碼、縮放與合成、ABR縮放、AI處理、編碼、質量分析等步驟全部由硬件單元完成，通過將所有視頻處理功能硬化來最大限度減少CPU和加速卡之間的數據遷移。

在云游戲和直播場景，大家可能遇到過畫面內字符顯示不清晰的問題，運用前述的AI技術則可對字符所在區域進行顯示質量的針對性優化。

用戶可通過我們隨卡附帶的AMD媒體加速軟件開發套件（SDK）訪問加速卡，它帶有FFmpeg、GStreamer接口，便于快速上手。高階用戶還可以通過AMD 媒體加速器接口客制化調用加速卡的各種視頻處理模塊。

接下來介紹MA35D的一次視頻處理性能演示，我們使用單卡雙芯片同時處理兩個4k60 8Mps H264流。其中一路解碼后分為四個流以不同碼率和編碼標準輸出，四個流中的三個在同服務器上使用加速卡自帶解碼器進行轉碼、編碼，傳輸至顯示器。另一路分為三個流按不同分辨率、碼率和編碼標準輸出，同第一路中的第四個流一并無線傳輸至不同設備解碼顯示。