百家乐官网 (中国)有限公司官网

澎湃Logo
下載客戶端

登錄

  • +1

對話劍寒:如何跨方向技術(shù)融合,打造更智能的音視頻系統(tǒng)?

2023-07-04 16:04
來源:澎湃新聞·澎湃號·湃客
字號

編者按:在 AI 時代,隨著 ChatGPT 掀起技術(shù)狂潮,構(gòu)建更智能的音視頻系統(tǒng)已經(jīng)成為音視頻領(lǐng)域從業(yè)者的共同目標。

然而,音視頻系統(tǒng)的智能化,每個從業(yè)者對其都有自己獨特的視角和理解,正如“一千個人眼中有一千個哈姆雷特”一樣。盡管沒有統(tǒng)一的標準答案,我們訪談了小紅書音視頻架構(gòu)師劍寒,聊聊他心中的智能化:像人眼一樣感知質(zhì)量是智能的,利用最新圖像生成技術(shù)的畫質(zhì)增強和修復(fù)是智能的,利用AI改善編解碼效果是智能的。

智能不僅于此,音視頻系統(tǒng)更大的智能可能在于跨方向技術(shù)融合以及系統(tǒng)全局優(yōu)化能力,從而實現(xiàn)看似矛盾的業(yè)務(wù)目標。作為視頻 App 的新興入圍者,小紅書如何選擇自己的目標?

劍寒表示:首先,在技術(shù)方向上,結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好;其次,重點迭代一些具有長期價值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等;最終實現(xiàn)保證用戶體驗,又能降低成本的智能系統(tǒng),從而實現(xiàn)業(yè)務(wù)目標的最優(yōu)平衡。

希望對你有用,以下是對話:

LVS:可以概括介紹下你將在 LiveVideoStackCon 2023上海站分享的題目嗎?

劍寒:我分享的題目是《基于人眼感知質(zhì)量的端云結(jié)合畫質(zhì)及帶寬優(yōu)化實踐》,也是”降本增效”背景下小紅書的一個重點項目。如果簡單看是一個端側(cè)超分的算法落地,學術(shù)界和工業(yè)界基于這個技術(shù)點其實已經(jīng)進行了很長的探索,但面向不同的業(yè)務(wù)場景和集成系統(tǒng),端側(cè)超分技術(shù)在業(yè)務(wù)目標和技術(shù)方向上會有很明顯的區(qū)別。

比如面向一款新的硬件設(shè)備,只需要基于它的硬件加速器定制化地設(shè)計和優(yōu)化算法即可。而視頻業(yè)務(wù)及APP面向的終端用戶設(shè)備多樣復(fù)雜,技術(shù)優(yōu)化的用戶體驗通常難以全面評估,落地覆蓋率直接影響收益大小。

在這個場景下,端側(cè)超分技術(shù)的演進方向不再是獨立算法模塊的設(shè)計和優(yōu)化,而是結(jié)合從云端消費檔位生產(chǎn)、人眼感知的質(zhì)量評估到播控及端側(cè)超分的整條視頻處理鏈路的端到端優(yōu)化,這會極大的釋放端側(cè)超分的潛力,一定程度上解決前面提到的技術(shù)挑戰(zhàn)。本次分享是我們在這個主題下的一些系統(tǒng)總結(jié)和實踐,當然這也是一個長期建設(shè)方向,當前我們已經(jīng)拿到了一些收益,相信在這個框架下,未來通過技術(shù)迭代還會有很大的空間。

LVS:你怎么看待算力、成本和用戶體驗的這三角關(guān)系?

劍寒:_從靜態(tài)的角度來講,不做任何技術(shù)的優(yōu)化,可以考慮用更大的算力、更高的成本去實現(xiàn)用戶體驗的提升,比如大的算力可以支撐更高復(fù)雜度且更好效果的算法落地,也提升了算法處理的時效性;_為了提升用戶體驗,我們可以提升視頻消費碼率,而帶來帶寬成本的增加。或者反過來,通過犧牲一些用戶體驗節(jié)省算力和成本。音視頻領(lǐng)域有很多這種trade-off,也有很多特例,比如提升視頻消費碼率和分辨率一般情況會提升用戶體驗,但是在網(wǎng)絡(luò)不好時可能會導(dǎo)致視頻卡頓,用戶體驗反而下降。因此我更喜歡分析每個因素有什么優(yōu)劣勢,看每個變量在當前系統(tǒng)狀態(tài)下會產(chǎn)生什么影響,針對具體業(yè)務(wù)目標case by case分析和決策。

_而從動態(tài)的角度講,由于技術(shù)是不停迭代的,可以通過技術(shù)優(yōu)化同時提升用戶體驗并降低成本。_比如現(xiàn)在每一代的編碼標準,可以做到相同的質(zhì)量下節(jié)省30%-50%的碼率,這意味著用戶體驗基本不變,但是帶寬成本就節(jié)省了很多。上面提到的端側(cè)超分技術(shù),也有類似的收益。除了技術(shù)優(yōu)化,還有很多策略發(fā)揮作用。比如現(xiàn)在CDN的帶寬成本是根據(jù)高峰期收費的,這里的策略是,在非高峰期的時候我可以增加碼率來提升用戶體驗,但并不增加帶寬成本。當然這里也涉及一個準確預(yù)測高峰期時段的問題。

所以說音視頻這個領(lǐng)域,它其實是一個系統(tǒng),并不是一個單一的點,我們可以從算法上以及系統(tǒng)的策略上同時實現(xiàn)看似矛盾的業(yè)務(wù)目標。

LVS:面對用戶追求更高清更極致的視頻體驗趨勢,視頻編解碼的技術(shù)顯得至關(guān)重要,針對這個以及其它技術(shù)方向,你們團隊有什么目標嗎?

劍寒:視頻編解碼技術(shù)迭代非常重要,目前我們已經(jīng)落地了H.265這一代標準,而且達到了很高的覆蓋率,在研的包括AV1標準,已經(jīng)開始了一些實驗驗證。未來H.266也可能會跟進。

除此之外,在AI時代,構(gòu)建更智能的音視頻處理是我們的一個目標,這里包括各種畫質(zhì)增強及修復(fù)技術(shù)、質(zhì)量和內(nèi)容分析技術(shù)、以及智能編碼技術(shù)。在技術(shù)方向上,首先會結(jié)合業(yè)務(wù)優(yōu)先級把單點技術(shù)能力做好,比如使用云端超分技術(shù)提升1080P視頻占比,面向通用場景的紋理及清晰度視頻增強。此外,我們會迭代一些具有長期價值和收益的技術(shù)框架,比如云端”窄帶高清”、端云結(jié)合超分、人眼感知的質(zhì)量評估等。

現(xiàn)在音視頻處理的智能化程度其實還有很大空間,個人理解挑戰(zhàn)主要有兩個方面:

_1.音視頻處理不是單一技術(shù),_從當前技術(shù)發(fā)展來看,很難用一個大模型來實現(xiàn),一個更智能的視頻處理系統(tǒng)應(yīng)該是包含high level語義理解、low level圖像處理、編解碼技術(shù)的某種融合體,而當前算法方向的典型人才畫像是聚焦在某一個技術(shù)點上。我相信未來復(fù)合型人才和具有系統(tǒng)理解的算法人有機會做出突破。

2.智能化意味著大數(shù)據(jù)驅(qū)動,ChatGPT的訓(xùn)練數(shù)據(jù)可以來自高質(zhì)量的問答,通過自監(jiān)督訓(xùn)練進行大規(guī)模學習,構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難,Groudtruth以及退化模型是否準確通常是音視頻算法面臨的第一個關(guān)鍵問題。

目前業(yè)界的探索更多的集中在單點能力的智能化,比如利用圖像生成技術(shù)的畫質(zhì)增強算法、利用AI提升編解碼子模塊效率等,這些都是我們可以跟進的技術(shù)點,但我們也希望在跨方向技術(shù)融合以及全局優(yōu)化能力上做更多的探索和實踐,為此來找到提升音視頻系統(tǒng)智能化的有效途徑。

LVS:每個人都有自己認為的主觀好與壞,所以,該如何驗證畫質(zhì)優(yōu)化算法對主觀質(zhì)量提升是否有效?

劍寒:這個問題其實也是前一個問題回答中所說的“構(gòu)建高質(zhì)并準確的數(shù)據(jù)集在音視頻領(lǐng)域會更加困難”的一個佐證,每個人對于畫質(zhì)好壞的判斷都是不一樣的。不過,是有國際標準來指導(dǎo)的,簡單說就是,在一個可控環(huán)境條件下,通過專家評測和眾測來判斷畫質(zhì)是否有提升,其中眾測是對于同一個視頻收集多人的評價結(jié)果,通過統(tǒng)計的方法來消除個體上的差異,雖然不一定符合某個人的判斷標準,但是代表了大多數(shù)人的意見。

當然,主觀專家評測和眾測由于時間和操作成本只能在小數(shù)據(jù)量上驗證,真正上線還需要經(jīng)過大盤的檢驗,這里一般會使用AB實驗的方式,通過對比一些關(guān)鍵業(yè)務(wù)和技術(shù)指標來佐證大盤上的表現(xiàn)。需要注意的是,AB實驗的影響因素很多,不完全是畫質(zhì)上的,需要結(jié)合方案具體分析實驗數(shù)據(jù)。

LVS:作為一個非常大的UGC內(nèi)容社區(qū),小紅書圖像或視頻的來源可以說非常寬泛,所以有時真實拍攝環(huán)境不受控,導(dǎo)致內(nèi)容質(zhì)量不能保證。這種質(zhì)量評價問題,你是怎么處理的?

劍寒:我們今年落地了一個基于AI的無參考視頻質(zhì)量評估算法來解決這個問題,它基于人眼感知質(zhì)量對任意視頻做絕對質(zhì)量評判,像你說的,UGC視頻的多樣性對于數(shù)據(jù)驅(qū)動的AI算法來說是一個挑戰(zhàn)。此外,當視頻經(jīng)過整個視頻鏈路的處理后質(zhì)量變化也極大,帶來了更大的復(fù)雜性,比如特效編輯、多檔位視頻增強和轉(zhuǎn)碼等。因此,數(shù)據(jù)集是要精心設(shè)計的,既要包含線上的主要質(zhì)量問題,同時需要主動構(gòu)造一些難以直接從線上采集到的case,核心點是,如何用盡量少的數(shù)據(jù)樣本代表大盤,這里有一些技術(shù)上的輔助手段,比如數(shù)據(jù)采樣方法。

算法設(shè)計上,重點是如何有效提取質(zhì)量特征,這里需要對質(zhì)量問題的產(chǎn)生過程有充分的認知,比如視頻鏈路中編輯和轉(zhuǎn)碼會如何影響質(zhì)量,我總結(jié)幾個關(guān)鍵點分享給大家:

1. 全局構(gòu)圖和局部紋理信息都很重要,質(zhì)量相關(guān)特征體現(xiàn)在局部紋理上,而劣化程度在于全局感知;2. 捕捉大范圍時空信息及依賴關(guān)系,人眼對質(zhì)量的感知涉及到整體語義理解、關(guān)注區(qū)域、創(chuàng)作意圖理解等,很多視頻處理操作會在較大的時空范圍內(nèi)影響質(zhì)量,比如碼率分配、ROI編碼等。3. 質(zhì)量評估數(shù)據(jù)集的量級和完備程度遠低于分類識別等CV任務(wù),我們需要某種顯式地輔助質(zhì)量特征提取的手段,一種方法是通過添加有序的質(zhì)量樣本或者利用質(zhì)量評估的代理任務(wù),進行數(shù)據(jù)增強及質(zhì)量特征自監(jiān)督學習。

▲掃描圖中二維碼或點擊“閱讀原文” 查看更多精彩內(nèi)容▲

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋
            百家乐官网e78| 百家乐如何打公式| 真人百家乐蓝盾赌场娱乐网规则 | 百家乐一般多大码| 足球现金网| 百家乐如何稳赢| 潮安县| 百家乐赌场娱乐城大全| 易发娱乐场| 百家乐投注窍门| 娱乐场百家乐官网大都| 尊龙百家乐官网娱乐网| 大发888娱乐城 真钱| 百家乐怎么推算| 百家乐官网职业赌徒的解密| 大发888怎么下载安装| 24山六十日吉凶| 伟易博百家乐官网现金网| 大发888亚洲游戏| 百家乐有方式赢钱吗| 百家乐官网和的几率| 现金博彩网| 水果机上分器| 总格24名人| 澳门百家乐官网庄闲和| 大发888老虎机技巧| 澳门百家乐奥秘| 单机百家乐官网的玩法技巧和规则| 吴川市| 江达县| 大发888注册网址| 神州百家乐的玩法技巧和规则| 百家乐官网怎样玩才会赢钱| 百家乐官网娱乐城会员| 777博彩| 大发888娱乐场网页| 威尼斯人娱乐城玩百家乐| 百家乐轮盘桌| 实战百家乐官网十大取胜原因百分百战胜百家乐官网不买币不吹牛只你能做到按我说的.百家乐官网基本规则 | tt娱乐城官方网站| 大发888官网e世博备用网址|