- +1
未來已來,視頻編碼還“卷”得動嗎?
我們在追求怎樣的編碼未來?
無處不在的視頻滲透、井噴式的流量增長、多元的場景技術需求、用戶對視頻體驗的“不將就”……音視頻行業的快速發展卻伴隨著“編碼標準升級速度緩慢”、“硬件紅利見底”、“編碼復雜度帶來的成本問題”等眾多挑戰。
視頻編碼還“卷”得動嗎?
究竟怎樣的視頻編碼技術,才能滿足既要又要的體驗與成本平衡?
面向機器視覺的視頻編碼、虛擬現實視頻、智能化應用視頻......前浪翻滾而來,視頻編碼的“未來式”如何展開?
本文由IMMENSE、「阿里云視頻云」視頻編碼服務端負責人陳高星和LiveVideoStack策劃、采訪而成。
需求很多,矛盾更多
技術迭代速度凝固了嗎?摩爾定律走到盡頭了嗎?
視頻編解碼技術約10年提升50%壓縮率,但這“十年磨一劍”的升級速度,早就跟不上視頻信息量膨脹的速度。
新編碼標準帶來的編碼復雜度增加,遠高于CPU處理能力的增強,隨之面臨編碼技術難以“普惠”的難題。
隨著視頻在更多應用場景的擴展探索,單一編碼標準已難覆蓋多種視頻應用需求……
顯然,一邊是AR、VR時代的到來,以及4K、8K的高分辨率,60-120fps高幀率,10-12bit寬色域,讓視頻本身的信息量數倍膨脹;一邊,是資源堆疊置換壓縮效率,和“摩爾定律”的進步已經走到了“盡頭”。加之,視頻的“超低延時”對編碼速度的要求,這一切,讓視頻體驗、帶寬、計算成本、編碼速度之間的**“矛盾”**越發明顯。
于是,我們始終面臨更高清、更實時、更高效的編碼需求,也面臨技術與需求之間的諸多“矛盾”。
在這些似乎難以平衡的“矛盾”背景下,也衍生出許多值得進一步探討的問題:
? 現有的編碼標準在哪些方面關注不夠?
? 如何先用好現有的編碼標準?
? 現有的視頻編碼技術覆蓋不到的維度有哪些?
? 除了碼率和質量,視頻編碼是否需要關注更多的目標?
? 如何打破資源堆疊置換視頻壓縮效率提升的技術思維慣性?
……
從需求、矛盾、問題中,可引出深一層的認知:編碼優化的目標不再僅僅考慮傳統的主客觀質量、復雜度、時延等維度,還有與AI處理能力的友好性、多平臺下性能的適配性等。
問題的提出總是伴隨著解題思路和技術方向的選擇。
于是,推動著編解碼架構從傳統向更智能、更兼容的方向演進。
終極目標,有些偏倚
在優化編解碼時,我們究竟需要追求什么?
當2015年阿里云視頻云向業界提出了“窄帶高清”的概念,并在2016年正式推出窄帶高清技術品牌并產品化,這種既“降低碼率”又“提高清晰度”的兼顧之方,幾乎成為了業界的通用解法。
但是,不斷演化之下到當前,業內開始流行一種“內卷”,即,過度追求"某客觀指標數據"的優化。
然而,以“人”為中心的視頻化視角,在最終的用戶體驗上,視頻都應是更關注主觀體驗的。相反的是,在實際研發過程中,特別是編碼器的優化上,通常都是依賴如:PSNR、SSIM、VMAF-NEG這樣的“有源客觀指標”。
誠然,在大部分情況下,客觀質量的提升都能一定程度反映到主觀質量的提升上,特別是當樣本數足夠大,且客觀質量提升較大時,客觀指標和主觀感受能呈現一致性。
不過在窄帶高清的優化實踐中,也存在一些主客觀優化“不一致”的情況。
比如:H.265標準中的SAO工具,用于改善振鈴效應,但隨之會降低VMAF和VMAF-NEG分數;
X265編碼器里的PSY工具,在主觀質量上能增加高頻細節,但是對于客觀指標都是不友好的;
又比如:JND和ROI技術,在挖掘視覺失真冗余的過程中,也不可避免地會造成有源客觀指標的下降;
阿里云自研的碼控算法,會對容易出現“塊效應”等主觀問題的區域分配更多碼率以保護主觀質量,但這也會導致客觀質量下降;
還有,前處理增強中的各種修復生成技術,會直接對源進行修改,這類技術對于旨在評價“與源差異大小”的有源客觀指標,都是不太友好的。
此外,針對單一客觀指標的“過度優化”,也有可能造成單一客觀指標與主觀體驗相悖的情況......
因此,單項客觀指標的數值或高或低,都不應是視頻編碼優化追求的“終極目標”。
細微之處,方見視界
我們的編解碼視界里,可以有哪些精妙解法?
在上述技術理念和智能編碼架構的支撐下,“窄帶高清2.0”從人眼視覺模型出發,將編碼器的優化目標從“保真度更高”調整為“主觀體驗更好”。
這可以從視覺編碼和細節修復兩個視角來看。
在視覺編碼維度,“窄帶高清2.0”采用基于場景和內容的幀類型決策和塊級碼率分配,模式決策采用面向主觀友好的算法。
在內容自適應編碼部分,考慮到人眼感知的視頻空間域的亮度、對比度以及時域失真是不連續的,通過基于恰可察覺失真(JND)自適應編碼技術,丟棄視覺冗余信息,在主觀質量不發生明顯降低的情況下,可以大幅節省帶寬;同時,通過ROI碼控技術調整碼率分配策略,進一步提升人眼感興趣區域的清晰度。
在細節修復維度,“窄帶高清2.0”采用基于**生成對抗網絡(GAN)的細節修復生成技術,在修復因編碼壓縮引起的馬賽克效應和邊緣毛刺的同時,“腦補”**生成一些自然的紋理細節,使得畫面紋理細節更豐富、更自然、更有質感。
更關鍵的是,應對垂直細分場景,我們的模型會對場景特征會實現更為智能的紋理生成。
比如:對于演唱會場景,曾為百視TV專屬打造了Idol人像定制模版,針對優化人像區域的細節修復生成效果,將Idol的“懟臉直拍”,通過直播清晰還原送到觀眾屏幕前。
再比如:在NBA籃球比賽場景,AI修復模型加強了籃球場地板紋理、球員近景特寫、球場邊界線、地面廣告字母、球衣上數字、籃球網等籃球體育賽事特有元素的修復生成,大大提升畫面清晰度和整體視覺生動力表現。
也正是,唯有細微之處,方能見技術之極。
繞不開的“成本、成本、成本”
成本和體驗的“非零和博弈”, 編解碼怎么擺平?
正如“清晰度”和“帶寬”是“窄帶高清”需要平衡的天平兩端,在當前“降本增效”的大環境之下,“體驗”和“成本”的“非零和博弈”,一定是繞不開的話題。
成本(計算復雜度),體驗(質量),這兩者雖然是“trade-off”的權衡關系,但在某種程度上,也可以單方面優化提升。
比如,通過算法優化,在復雜度不變的情況下,將編碼器的R-D曲線朝著更有性價比的方向優化;同時,通過高性價比的自適應快速算法的設計,也可以將質量的提升轉化為成本的收益;又或者,通過底層優化并與計算平臺的充分結合,挖掘異構編碼的潛力,可以進一步在質量不變的情況下降低計算成本。
當然,在“讓高壓縮率算法和AI真正普惠”的路上,阿里云視頻云所做的不僅于此。
與視頻編碼類似,在視頻處理領域,深度學習從效果上已經遠超傳統方法,同時還在不斷地快速進化,但深度學習對計算資源的高消耗,成為阻礙其在實際應用中廣泛使用的主要原因。
阿里云視頻云深度自研編碼內核,包括s264、s265,落地100+算法,支持直播、點播、RTC場景,相對于開源,全場景20%+壓縮率領先。
同時,我們引入AI輔助的編碼決策,在碼率分配和模式決策上提升內容自適應能力,極致挖掘視覺冗余,同等主觀下,碼率節省50%。
軟硬結合,是破解編碼天花板之技嗎?
在算法層面和軟件層面塑造的有限差異之上,要想塑造成本優勢,必須將軟件、算法與操作系統、硬件、乃至芯片,全線聯動。
此基礎上,基于自研倚天710芯片,視頻云與倚天團隊聯合投入ARM視頻編碼優化,深度重構了視頻編碼數據結構、并行框架,重新調優了快速算法策略,從軟件、匯編、硬件層面跨層深度優化,塑造極致性能。
同時,我們與平頭哥深度合作,共建**“軟硬結合”**自研芯片競爭力,通過算法、加速庫、驅動、固件一體化設計,不斷探索創新音視頻技術,加強在更多視頻應用、更多終端設備上的普適性,從而帶來更節省、更低耗、更高清、更實時的硬核編碼力,賦能千行百業的視頻化需求。
沒有想象,就沒有進化
蘋果的VisonPro,透射出編碼的未來嗎?
回顧文章開頭的“矛盾”與問題,面對激增的海量視頻數據、多元的視頻內容形式,以及加速擴大的行業應用范圍,視頻編碼如何“進化”的答案,也隱藏在行業的急速迭代之中。
如何實現更高壓縮效率并匹配多樣的細分場景?AI codec能實現比傳統壓縮標準更高的壓縮效率,并能夠在一些垂直場景有落地的機會,例如:業界已有基于深度學習的圖像壓縮,落地于衛星圖像的壓縮傳輸;
面對未來視頻數據的消費場景不再單純局限于人眼視覺,服務于機器視覺的視頻編碼也將迎來巨大應用市場。阿里云視頻云團隊已與高校深度合作,布局“面向人-機視覺的全新編碼范例:高層語義與低層信號相結合的圖像編碼方案”;
而對于近期大熱的蘋果VisionPro的推出,作為視頻行業工作者,十分樂見VR生態能在蘋果的帶領下,真正打出一片市場。因此,一些相關的沉浸式編碼標準如MIV,點云編碼,動態網格編碼等技術,也將逐步投入研究……
未來已來,
智能編碼架構的“進化”,將會帶來怎樣的“新生”?
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司