- +1
對話劍寒:如何跨方向技術(shù)融合,打造更智能的音視頻系統(tǒng)?
編者按:在 AI 時代,隨著 ChatGPT 掀起技術(shù)狂潮,構(gòu)建更智能的音視頻系統(tǒng)已經(jīng)成為音視頻領(lǐng)域從業(yè)者的共同目標。
然而,音視頻系統(tǒng)的智能化,每個從業(yè)者對其都有自己獨特的視角和理解,正如“一千個人眼中有一千個哈姆雷特”一樣。盡管沒有統(tǒng)一的標準答案,我們訪談了小紅書音視頻架構(gòu)師劍寒,聊聊他心中的智能化:像人眼一樣感知質(zhì)量是智能的,利用最新圖像生成技術(shù)的畫質(zhì)增強和修復(fù)是智能的,利用AI改善編解碼效果是智能的。
智能不僅于此,音視頻系統(tǒng)更大的智能可能在于跨方向技術(shù)融合以及系統(tǒng)全局優(yōu)化能力,從而實現(xiàn)看似矛盾的業(yè)務(wù)目標。作為視頻 App 的新興入圍者,小紅書如何選擇自己的目標?
劍寒表示:首先,在技術(shù)方向上,結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好;其次,重點迭代一些具有長期價值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等;最終實現(xiàn)保證用戶體驗,又能降低成本的智能系統(tǒng),從而實現(xiàn)業(yè)務(wù)目標的最優(yōu)平衡。
希望對你有用,以下是對話:
LVS:可以概括介紹下你將在 LiveVideoStackCon 2023上海站分享的題目嗎?
劍寒:我分享的題目是《基于人眼感知質(zhì)量的端云結(jié)合畫質(zhì)及帶寬優(yōu)化實踐》,也是”降本增效”背景下小紅書的一個重點項目。如果簡單看是一個端側(cè)超分的算法落地,學術(shù)界和工業(yè)界基于這個技術(shù)點其實已經(jīng)進行了很長的探索,但面向不同的業(yè)務(wù)場景和集成系統(tǒng),端側(cè)超分技術(shù)在業(yè)務(wù)目標和技術(shù)方向上會有很明顯的區(qū)別。
比如面向一款新的硬件設(shè)備,只需要基于它的硬件加速器定制化地設(shè)計和優(yōu)化算法即可。而視頻業(yè)務(wù)及APP面向的終端用戶設(shè)備多樣復(fù)雜,技術(shù)優(yōu)化的用戶體驗通常難以全面評估,落地覆蓋率直接影響收益大小。
在這個場景下,端側(cè)超分技術(shù)的演進方向不再是獨立算法模塊的設(shè)計和優(yōu)化,而是結(jié)合從云端消費檔位生產(chǎn)、人眼感知的質(zhì)量評估到播控及端側(cè)超分的整條視頻處理鏈路的端到端優(yōu)化,這會極大的釋放端側(cè)超分的潛力,一定程度上解決前面提到的技術(shù)挑戰(zhàn)。本次分享是我們在這個主題下的一些系統(tǒng)總結(jié)和實踐,當然這也是一個長期建設(shè)方向,當前我們已經(jīng)拿到了一些收益,相信在這個框架下,未來通過技術(shù)迭代還會有很大的空間。
LVS:你怎么看待算力、成本和用戶體驗的這三角關(guān)系?
劍寒:_從靜態(tài)的角度來講,不做任何技術(shù)的優(yōu)化,可以考慮用更大的算力、更高的成本去實現(xiàn)用戶體驗的提升,比如大的算力可以支撐更高復(fù)雜度且更好效果的算法落地,也提升了算法處理的時效性;_為了提升用戶體驗,我們可以提升視頻消費碼率,而帶來帶寬成本的增加。或者反過來,通過犧牲一些用戶體驗節(jié)省算力和成本。音視頻領(lǐng)域有很多這種trade-off,也有很多特例,比如提升視頻消費碼率和分辨率一般情況會提升用戶體驗,但是在網(wǎng)絡(luò)不好時可能會導(dǎo)致視頻卡頓,用戶體驗反而下降。因此我更喜歡分析每個因素有什么優(yōu)劣勢,看每個變量在當前系統(tǒng)狀態(tài)下會產(chǎn)生什么影響,針對具體業(yè)務(wù)目標case by case分析和決策。
_而從動態(tài)的角度講,由于技術(shù)是不停迭代的,可以通過技術(shù)優(yōu)化同時提升用戶體驗并降低成本。_比如現(xiàn)在每一代的編碼標準,可以做到相同的質(zhì)量下節(jié)省30%-50%的碼率,這意味著用戶體驗基本不變,但是帶寬成本就節(jié)省了很多。上面提到的端側(cè)超分技術(shù),也有類似的收益。除了技術(shù)優(yōu)化,還有很多策略發(fā)揮作用。比如現(xiàn)在CDN的帶寬成本是根據(jù)高峰期收費的,這里的策略是,在非高峰期的時候我可以增加碼率來提升用戶體驗,但并不增加帶寬成本。當然這里也涉及一個準確預(yù)測高峰期時段的問題。
所以說音視頻這個領(lǐng)域,它其實是一個系統(tǒng),并不是一個單一的點,我們可以從算法上以及系統(tǒng)的策略上同時實現(xiàn)看似矛盾的業(yè)務(wù)目標。
LVS:面對用戶追求更高清更極致的視頻體驗趨勢,視頻編解碼的技術(shù)顯得至關(guān)重要,針對這個以及其它技術(shù)方向,你們團隊有什么目標嗎?
劍寒:視頻編解碼技術(shù)迭代非常重要,目前我們已經(jīng)落地了H.265這一代標準,而且達到了很高的覆蓋率,在研的包括AV1標準,已經(jīng)開始了一些實驗驗證。未來H.266也可能會跟進。
除此之外,在AI時代,構(gòu)建更智能的音視頻處理是我們的一個目標,這里包括各種畫質(zhì)增強及修復(fù)技術(shù)、質(zhì)量和內(nèi)容分析技術(shù)、以及智能編碼技術(shù)。在技術(shù)方向上,首先會結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好,比如使用云端超分技術(shù)提升1080P視頻占比,面向通用場景的紋理及清晰度視頻增強。此外,我們會迭代一些具有長期價值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等。
現(xiàn)在音視頻處理的智能化程度其實還有很大空間,個人理解挑戰(zhàn)主要有兩個方面:
_1.音視頻處理不是單一技術(shù),_從當前技術(shù)發(fā)展來看,很難用一個大模型來實現(xiàn),一個更智能的視頻處理系統(tǒng)應(yīng)該是包含high level語義理解、low level圖像處理、編解碼技術(shù)的某種融合體,而當前算法方向的典型人才畫像是聚焦在某一個技術(shù)點上。我相信未來復(fù)合型人才和具有系統(tǒng)理解的算法人有機會做出突破。
2.智能化意味著大數(shù)據(jù)驅(qū)動,ChatGPT的訓(xùn)練數(shù)據(jù)可以來自高質(zhì)量的問答,通過自監(jiān)督訓(xùn)練進行大規(guī)模學習,構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難,Groudtruth以及退化模型是否準確通常是音視頻算法面臨的第一個關(guān)鍵問題。
目前業(yè)界的探索更多的集中在單點能力的智能化,比如利用圖像生成技術(shù)的畫質(zhì)增強算法、利用AI提升編解碼子模塊效率等,這些都是我們可以跟進的技術(shù)點,但我們也希望在跨方向技術(shù)融合以及全局優(yōu)化能力上做更多的探索和實踐,為此來找到提升音視頻系統(tǒng)智能化的有效途徑。
LVS:每個人都有自己認為的主觀好與壞,所以,該如何驗證畫質(zhì)優(yōu)化算法對主觀質(zhì)量提升是否有效?
劍寒:這個問題其實也是前一個問題回答中所說的“構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難”的一個佐證,每個人對于畫質(zhì)好壞的判斷都是不一樣的。不過,是有國際標準來指導(dǎo)的,簡單說就是,在一個可控環(huán)境條件下,通過專家評測和眾測來判斷畫質(zhì)是否有提升,其中眾測是對于同一個視頻收集多人的評價結(jié)果,通過統(tǒng)計的方法來消除個體上的差異,雖然不一定符合某個人的判斷標準,但是代表了大多數(shù)人的意見。
當然,主觀專家評測和眾測由于時間和操作成本只能在小數(shù)據(jù)量上驗證,真正上線還需要經(jīng)過大盤的檢驗,這里一般會使用AB實驗的方式,通過對比一些關(guān)鍵業(yè)務(wù)和技術(shù)指標來佐證大盤上的表現(xiàn)。需要注意的是,AB實驗的影響因素很多,不完全是畫質(zhì)上的,需要結(jié)合方案具體分析實驗數(shù)據(jù)。
LVS:作為一個非常大的UGC內(nèi)容社區(qū),小紅書圖像或視頻的來源可以說非常寬泛,所以有時真實拍攝環(huán)境不受控,導(dǎo)致內(nèi)容質(zhì)量不能保證。這種質(zhì)量評價問題,你是怎么處理的?
劍寒:我們今年落地了一個基于AI的無參考視頻質(zhì)量評估算法來解決這個問題,它基于人眼感知質(zhì)量對任意視頻做絕對質(zhì)量評判,像你說的,UGC視頻的多樣性對于數(shù)據(jù)驅(qū)動的AI算法來說是一個挑戰(zhàn)。此外,當視頻經(jīng)過整個視頻鏈路的處理后質(zhì)量變化也極大,帶來了更大的復(fù)雜性,比如特效編輯、多檔位視頻增強和轉(zhuǎn)碼等。因此,數(shù)據(jù)集是要精心設(shè)計的,既要包含線上的主要質(zhì)量問題,同時需要主動構(gòu)造一些難以直接從線上采集到的case,核心點是,如何用盡量少的數(shù)據(jù)樣本代表大盤,這里有一些技術(shù)上的輔助手段,比如數(shù)據(jù)采樣方法。
算法設(shè)計上,重點是如何有效提取質(zhì)量特征,這里需要對質(zhì)量問題的產(chǎn)生過程有充分的認知,比如視頻鏈路中編輯和轉(zhuǎn)碼會如何影響質(zhì)量,我總結(jié)幾個關(guān)鍵點分享給大家:
1. 全局構(gòu)圖和局部紋理信息都很重要,質(zhì)量相關(guān)特征體現(xiàn)在局部紋理上,而劣化程度在于全局感知;2. 捕捉大范圍時空信息及依賴關(guān)系,人眼對質(zhì)量的感知涉及到整體語義理解、關(guān)注區(qū)域、創(chuàng)作意圖理解等,很多視頻處理操作會在較大的時空范圍內(nèi)影響質(zhì)量,比如碼率分配、ROI編碼等。3. 質(zhì)量評估數(shù)據(jù)集的量級和完備程度遠低于分類識別等CV任務(wù),我們需要某種顯式地輔助質(zhì)量特征提取的手段,一種方法是通過添加有序的質(zhì)量樣本或者利用質(zhì)量評估的代理任務(wù),進行數(shù)據(jù)增強及質(zhì)量特征自監(jiān)督學習。
▲掃描圖中二維碼或點擊“閱讀原文” 查看更多精彩內(nèi)容▲
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司