對話劍寒：如何跨方向技術(shù)融合，打造更智能的音視頻系統(tǒng)？

2023-07-04 16:04

來源：澎湃新聞·澎湃號·湃客

編者按：在 AI 時代，隨著 ChatGPT 掀起技術(shù)狂潮，構(gòu)建更智能的音視頻系統(tǒng)已經(jīng)成為音視頻領(lǐng)域從業(yè)者的共同目標。

然而，音視頻系統(tǒng)的智能化，每個從業(yè)者對其都有自己獨特的視角和理解，正如“一千個人眼中有一千個哈姆雷特”一樣。盡管沒有統(tǒng)一的標準答案，我們訪談了小紅書音視頻架構(gòu)師劍寒，聊聊他心中的智能化：像人眼一樣感知質(zhì)量是智能的，利用最新圖像生成技術(shù)的畫質(zhì)增強和修復(fù)是智能的，利用AI改善編解碼效果是智能的。

智能不僅于此，音視頻系統(tǒng)更大的智能可能在于跨方向技術(shù)融合以及系統(tǒng)全局優(yōu)化能力，從而實現(xiàn)看似矛盾的業(yè)務(wù)目標。作為視頻 App 的新興入圍者，小紅書如何選擇自己的目標？

劍寒表示：首先，在技術(shù)方向上，結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好；其次，重點迭代一些具有長期價值和收益的技術(shù)框架，比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等；最終實現(xiàn)保證用戶體驗，又能降低成本的智能系統(tǒng)，從而實現(xiàn)業(yè)務(wù)目標的最優(yōu)平衡。

希望對你有用，以下是對話：

LVS：可以概括介紹下你將在 LiveVideoStackCon 2023上海站分享的題目嗎？

劍寒：我分享的題目是《基于人眼感知質(zhì)量的端云結(jié)合畫質(zhì)及帶寬優(yōu)化實踐》，也是”降本增效”背景下小紅書的一個重點項目。如果簡單看是一個端側(cè)超分的算法落地，學術(shù)界和工業(yè)界基于這個技術(shù)點其實已經(jīng)進行了很長的探索，但面向不同的業(yè)務(wù)場景和集成系統(tǒng)，端側(cè)超分技術(shù)在業(yè)務(wù)目標和技術(shù)方向上會有很明顯的區(qū)別。

比如面向一款新的硬件設(shè)備，只需要基于它的硬件加速器定制化地設(shè)計和優(yōu)化算法即可。而視頻業(yè)務(wù)及APP面向的終端用戶設(shè)備多樣復(fù)雜，技術(shù)優(yōu)化的用戶體驗通常難以全面評估，落地覆蓋率直接影響收益大小。

在這個場景下，端側(cè)超分技術(shù)的演進方向不再是獨立算法模塊的設(shè)計和優(yōu)化，而是結(jié)合從云端消費檔位生產(chǎn)、人眼感知的質(zhì)量評估到播控及端側(cè)超分的整條視頻處理鏈路的端到端優(yōu)化，這會極大的釋放端側(cè)超分的潛力，一定程度上解決前面提到的技術(shù)挑戰(zhàn)。本次分享是我們在這個主題下的一些系統(tǒng)總結(jié)和實踐，當然這也是一個長期建設(shè)方向，當前我們已經(jīng)拿到了一些收益，相信在這個框架下，未來通過技術(shù)迭代還會有很大的空間。

LVS：你怎么看待算力、成本和用戶體驗的這三角關(guān)系？

劍寒：_從靜態(tài)的角度來講，不做任何技術(shù)的優(yōu)化，可以考慮用更大的算力、更高的成本去實現(xiàn)用戶體驗的提升，比如大的算力可以支撐更高復(fù)雜度且更好效果的算法落地，也提升了算法處理的時效性；_為了提升用戶體驗，我們可以提升視頻消費碼率，而帶來帶寬成本的增加。或者反過來，通過犧牲一些用戶體驗節(jié)省算力和成本。音視頻領(lǐng)域有很多這種trade-off，也有很多特例，比如提升視頻消費碼率和分辨率一般情況會提升用戶體驗，但是在網(wǎng)絡(luò)不好時可能會導(dǎo)致視頻卡頓，用戶體驗反而下降。因此我更喜歡分析每個因素有什么優(yōu)劣勢，看每個變量在當前系統(tǒng)狀態(tài)下會產(chǎn)生什么影響，針對具體業(yè)務(wù)目標case by case分析和決策。

_而從動態(tài)的角度講，由于技術(shù)是不停迭代的，可以通過技術(shù)優(yōu)化同時提升用戶體驗并降低成本。_比如現(xiàn)在每一代的編碼標準，可以做到相同的質(zhì)量下節(jié)省30%-50%的碼率，這意味著用戶體驗基本不變，但是帶寬成本就節(jié)省了很多。上面提到的端側(cè)超分技術(shù)，也有類似的收益。除了技術(shù)優(yōu)化，還有很多策略發(fā)揮作用。比如現(xiàn)在CDN的帶寬成本是根據(jù)高峰期收費的，這里的策略是，在非高峰期的時候我可以增加碼率來提升用戶體驗，但并不增加帶寬成本。當然這里也涉及一個準確預(yù)測高峰期時段的問題。

所以說音視頻這個領(lǐng)域，它其實是一個系統(tǒng)，并不是一個單一的點，我們可以從算法上以及系統(tǒng)的策略上同時實現(xiàn)看似矛盾的業(yè)務(wù)目標。

LVS：面對用戶追求更高清更極致的視頻體驗趨勢，視頻編解碼的技術(shù)顯得至關(guān)重要，針對這個以及其它技術(shù)方向，你們團隊有什么目標嗎？

劍寒：視頻編解碼技術(shù)迭代非常重要，目前我們已經(jīng)落地了H.265這一代標準，而且達到了很高的覆蓋率，在研的包括AV1標準，已經(jīng)開始了一些實驗驗證。未來H.266也可能會跟進。

除此之外，在AI時代，構(gòu)建更智能的音視頻處理是我們的一個目標，這里包括各種畫質(zhì)增強及修復(fù)技術(shù)、質(zhì)量和內(nèi)容分析技術(shù)、以及智能編碼技術(shù)。在技術(shù)方向上，首先會結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好，比如使用云端超分技術(shù)提升1080P視頻占比，面向通用場景的紋理及清晰度視頻增強。此外，我們會迭代一些具有長期價值和收益的技術(shù)框架，比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等。

現(xiàn)在音視頻處理的智能化程度其實還有很大空間，個人理解挑戰(zhàn)主要有兩個方面：

_1.音視頻處理不是單一技術(shù)，_從當前技術(shù)發(fā)展來看，很難用一個大模型來實現(xiàn)，一個更智能的視頻處理系統(tǒng)應(yīng)該是包含high level語義理解、low level圖像處理、編解碼技術(shù)的某種融合體，而當前算法方向的典型人才畫像是聚焦在某一個技術(shù)點上。我相信未來復(fù)合型人才和具有系統(tǒng)理解的算法人有機會做出突破。

2.智能化意味著大數(shù)據(jù)驅(qū)動，ChatGPT的訓(xùn)練數(shù)據(jù)可以來自高質(zhì)量的問答，通過自監(jiān)督訓(xùn)練進行大規(guī)模學習，構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難，Groudtruth以及退化模型是否準確通常是音視頻算法面臨的第一個關(guān)鍵問題。

目前業(yè)界的探索更多的集中在單點能力的智能化，比如利用圖像生成技術(shù)的畫質(zhì)增強算法、利用AI提升編解碼子模塊效率等，這些都是我們可以跟進的技術(shù)點，但我們也希望在跨方向技術(shù)融合以及全局優(yōu)化能力上做更多的探索和實踐，為此來找到提升音視頻系統(tǒng)智能化的有效途徑。

LVS：每個人都有自己認為的主觀好與壞，所以，該如何驗證畫質(zhì)優(yōu)化算法對主觀質(zhì)量提升是否有效？

劍寒：這個問題其實也是前一個問題回答中所說的“構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難”的一個佐證，每個人對于畫質(zhì)好壞的判斷都是不一樣的。不過，是有國際標準來指導(dǎo)的，簡單說就是，在一個可控環(huán)境條件下，通過專家評測和眾測來判斷畫質(zhì)是否有提升，其中眾測是對于同一個視頻收集多人的評價結(jié)果，通過統(tǒng)計的方法來消除個體上的差異，雖然不一定符合某個人的判斷標準，但是代表了大多數(shù)人的意見。

當然，主觀專家評測和眾測由于時間和操作成本只能在小數(shù)據(jù)量上驗證，真正上線還需要經(jīng)過大盤的檢驗，這里一般會使用AB實驗的方式，通過對比一些關(guān)鍵業(yè)務(wù)和技術(shù)指標來佐證大盤上的表現(xiàn)。需要注意的是，AB實驗的影響因素很多，不完全是畫質(zhì)上的，需要結(jié)合方案具體分析實驗數(shù)據(jù)。

LVS：作為一個非常大的UGC內(nèi)容社區(qū)，小紅書圖像或視頻的來源可以說非常寬泛，所以有時真實拍攝環(huán)境不受控，導(dǎo)致內(nèi)容質(zhì)量不能保證。這種質(zhì)量評價問題，你是怎么處理的？

劍寒：我們今年落地了一個基于AI的無參考視頻質(zhì)量評估算法來解決這個問題，它基于人眼感知質(zhì)量對任意視頻做絕對質(zhì)量評判，像你說的，UGC視頻的多樣性對于數(shù)據(jù)驅(qū)動的AI算法來說是一個挑戰(zhàn)。此外，當視頻經(jīng)過整個視頻鏈路的處理后質(zhì)量變化也極大，帶來了更大的復(fù)雜性，比如特效編輯、多檔位視頻增強和轉(zhuǎn)碼等。因此，數(shù)據(jù)集是要精心設(shè)計的，既要包含線上的主要質(zhì)量問題，同時需要主動構(gòu)造一些難以直接從線上采集到的case，核心點是，如何用盡量少的數(shù)據(jù)樣本代表大盤，這里有一些技術(shù)上的輔助手段，比如數(shù)據(jù)采樣方法。

算法設(shè)計上，重點是如何有效提取質(zhì)量特征，這里需要對質(zhì)量問題的產(chǎn)生過程有充分的認知，比如視頻鏈路中編輯和轉(zhuǎn)碼會如何影響質(zhì)量，我總結(jié)幾個關(guān)鍵點分享給大家：

1. 全局構(gòu)圖和局部紋理信息都很重要，質(zhì)量相關(guān)特征體現(xiàn)在局部紋理上，而劣化程度在于全局感知；2. 捕捉大范圍時空信息及依賴關(guān)系，人眼對質(zhì)量的感知涉及到整體語義理解、關(guān)注區(qū)域、創(chuàng)作意圖理解等，很多視頻處理操作會在較大的時空范圍內(nèi)影響質(zhì)量，比如碼率分配、ROI編碼等。3. 質(zhì)量評估數(shù)據(jù)集的量級和完備程度遠低于分類識別等CV任務(wù)，我們需要某種顯式地輔助質(zhì)量特征提取的手段，一種方法是通過添加有序的質(zhì)量樣本或者利用質(zhì)量評估的代理任務(wù)，進行數(shù)據(jù)增強及質(zhì)量特征自監(jiān)督學習。

▲掃描圖中二維碼或點擊“閱讀原文” 查看更多精彩內(nèi)容▲

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#小紅書 #LiveVideoStack #音視頻系統(tǒng)