- +1
強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的低延遲視頻傳輸
隨著視頻會(huì)議、視頻直播的流行以及未來AR/VR業(yè)務(wù)的發(fā)展,低延遲視頻傳輸服務(wù)被廣泛使用,但視頻質(zhì)量(QoE)還不能滿足用戶要求。那么近年來新興的AI神經(jīng)網(wǎng)絡(luò)是否能為視頻傳輸帶來智能化的優(yōu)化?今天LiveVideoStack大會(huì)北京站邀請了來自北京郵電大學(xué)的周安福教授,為我們分享關(guān)于使用強(qiáng)化學(xué)習(xí)方法進(jìn)行低延遲視頻傳輸?shù)南嚓P(guān)研究成果 。
文/周安福
編輯/LiveVideoStack
大家好,我是來自北郵的周安福,非常高興有機(jī)會(huì)和大家分享我們的工作。由于我身在學(xué)術(shù)界,所以還請各位工業(yè)界同仁多提寶貴意見。我本次報(bào)告的標(biāo)題為:強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的低延遲視頻傳輸研究。
在正式開始前想先簡單提一句,自1986年至今,在四十多年的時(shí)間里,視頻傳輸擁塞控制一直是從業(yè)者們面臨的一個(gè)經(jīng)典問題。隨著近年來新興AI產(chǎn)業(yè)的發(fā)展與升級(jí),我們自然希望利用人工智能方法對視頻傳輸工作進(jìn)行優(yōu)化,但要如何才能使它們結(jié)合得更好?我們的整個(gè)研究過程并不是一帆風(fēng)順的,遇到了很多問題困難,此次主要將針對這些問題和我們提出的解決方案和大家進(jìn)行分享,力求使強(qiáng)化學(xué)習(xí)方法真正為視頻傳輸帶來幫助,對產(chǎn)業(yè)界應(yīng)用帶來助益。
-01-
背景與問題


此次報(bào)告將分三個(gè)部分,首先快速介紹背景與問題。我們知道,隨著實(shí)時(shí)視頻和實(shí)時(shí)交互視頻業(yè)務(wù)的持續(xù)增長,視頻通話、視頻會(huì)議、VR和4K全息視頻、機(jī)器人遠(yuǎn)程操作等應(yīng)用場景可能占到了當(dāng)今互聯(lián)網(wǎng)流量的80%以上。雖然業(yè)務(wù)量越來越大,但視頻質(zhì)量卻不能令人滿意。可能大家都曾遇到視頻電話卡頓、畫面質(zhì)量低等問題。在此背景下,我們希望了解在實(shí)際的商業(yè)網(wǎng)絡(luò)中,低QoE問題究竟有多嚴(yán)重。

我們與淘寶直播合作開展了現(xiàn)網(wǎng)測量研究。測量包括57個(gè)國家共749個(gè)城市,測量的會(huì)話場次和會(huì)話時(shí)間數(shù)量級(jí)達(dá)到百萬,大量的數(shù)據(jù)集被收集。

同時(shí)我們也搭建了一些實(shí)驗(yàn)平臺(tái)和評(píng)測系統(tǒng)輔助進(jìn)行分析,具體情況見上。

最終的分析結(jié)論為:如果將丟包1%或RTT300毫秒作為低QoE標(biāo)準(zhǔn),那么測量數(shù)據(jù)中約20%的會(huì)話存在低QoE問題,即使基礎(chǔ)的網(wǎng)絡(luò)條件良好但視頻質(zhì)量仍然不佳,情況類似于道路修得寬但汽車跑得慢,想必只能是司機(jī)技術(shù)的問題。

那么要如何解決該問題?解決的關(guān)鍵在于傳輸方法,我們發(fā)現(xiàn)TCP、UDP等傳輸協(xié)議一般均是基于經(jīng)驗(yàn)手工設(shè)計(jì),在現(xiàn)代網(wǎng)絡(luò)中存在帶寬估計(jì)過于保守、無法適應(yīng)網(wǎng)絡(luò)的瞬時(shí)變化、在新的網(wǎng)絡(luò)條件中缺乏靈活性等問題。根本原因在于實(shí)時(shí)視頻場景對網(wǎng)絡(luò)的帶寬要求越來越高,對延遲要求越來越低,同時(shí)現(xiàn)代互聯(lián)網(wǎng)變得高度異構(gòu)和動(dòng)態(tài),難以預(yù)測。

在此具體介紹互聯(lián)網(wǎng)的高度動(dòng)態(tài)性,目前網(wǎng)絡(luò)帶寬的變化可以說是呈毫秒級(jí),它的狀況類似于股市。大量用戶傳輸數(shù)據(jù)帶來的帶寬變化相當(dāng)難以預(yù)測,導(dǎo)致以固定規(guī)則約束難度相當(dāng)大。

我們希望通過強(qiáng)化學(xué)習(xí)方法來解決這個(gè)問題。相信大家可能從AlphaGo開始了解了強(qiáng)化學(xué)習(xí),它的本質(zhì)為不局限于固定規(guī)則,以數(shù)據(jù)驅(qū)動(dòng),用試錯(cuò)法來間接學(xué)習(xí)。
這個(gè)思路可以被應(yīng)用在視頻傳輸業(yè)務(wù)上,通過使AI不斷傳輸視頻來學(xué)會(huì)應(yīng)對網(wǎng)絡(luò)變化。其次,在視頻傳輸過程中,一個(gè)決定可能對當(dāng)下和未來都會(huì)造成影響。例如傳輸過程中視頻分辨率的切換對網(wǎng)絡(luò)狀況會(huì)持續(xù)造成影響。強(qiáng)化學(xué)習(xí)方法不同于監(jiān)督學(xué)習(xí),它通常規(guī)劃遠(yuǎn)期結(jié)果,適用于以上情況。
-02-
強(qiáng)化學(xué)習(xí)+低延遲視頻:從理論到實(shí)際
2.1 離線學(xué)習(xí)
剛才提到,在使用人工智能優(yōu)化視頻傳輸?shù)膶?shí)踐過程中我們遇到了很多問題,接下來將向大家具體介紹這些問題和困難。在此之前先簡單回顧視頻會(huì)議/通話系統(tǒng)的哪些要素決定了傳輸質(zhì)量。

從上圖可以看到,一個(gè)視頻源被編碼后分為各個(gè)視頻幀,視頻幀被分別打包進(jìn)行傳輸,各個(gè)數(shù)據(jù)包通過網(wǎng)絡(luò)到達(dá)接收端,最后經(jīng)過解碼、渲染,被還原為視頻畫面呈現(xiàn)在觀眾眼前。
其中有哪些環(huán)節(jié)決定了用戶的體驗(yàn)質(zhì)量呢?我理解有兩點(diǎn):首先為傳輸,它的本質(zhì)為對鏈路可用帶寬進(jìn)行估計(jì),并將結(jié)果發(fā)送至編碼器,通過與編碼器的協(xié)作達(dá)成視頻碼率的自適應(yīng)調(diào)整。可想而知,如果協(xié)作較好,那么視頻播放會(huì)比較流暢。

但實(shí)際上雙方并不夠協(xié)調(diào)。以上為傳輸實(shí)例,圖中的黑色線條為真實(shí)網(wǎng)絡(luò)帶寬,GCC為Google的視頻傳輸擁塞控制算法,藍(lán)線代表使用它傳輸非視頻文件的速率,過程中不涉及編解碼,紅線代表它傳輸視頻畫面的速率,過程中涉及使用編碼器。
通過分析可以看出,在圖中M1、M2點(diǎn)網(wǎng)絡(luò)出現(xiàn)擁塞時(shí),隨著帶寬下降,紅線的視頻傳輸速率發(fā)生不正常的大幅下降,原因在于編碼器落后于傳輸層流控。在M3點(diǎn)網(wǎng)絡(luò)帶寬回升時(shí),相較于藍(lán)線,紅線的視頻傳輸速率上升過于緩慢,原因在于隨著視頻傳輸速率降低,它的幀率也發(fā)生降低,正在傳輸?shù)臄?shù)據(jù)包也變少,這干擾了GCC的帶寬估計(jì),使傳輸速率無法快速回升。

我們設(shè)計(jì)了一個(gè)強(qiáng)化學(xué)習(xí)模型來加強(qiáng)二者的協(xié)調(diào)性。該模型取消了傳輸層的主導(dǎo)作用,由神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)收集傳輸層和編碼層信息,計(jì)算編碼器和傳輸層的最佳協(xié)同碼率。


以上為神經(jīng)網(wǎng)絡(luò)的建模方法和模型結(jié)構(gòu),各位如果感興趣可以查閱我們的論文。

值得一提的是,針對視頻傳輸我們對神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了新的訓(xùn)練方法,首先在懲罰函數(shù)的設(shè)計(jì)上注意額外懲罰視頻卡頓,防止高估視頻帶寬造成視頻卡頓。其次是傾向于懲罰碼率跳變,保證用戶觀看體驗(yàn)流暢。第三是注意將監(jiān)督學(xué)習(xí)過程中的專家標(biāo)簽調(diào)整到略低于網(wǎng)絡(luò)實(shí)時(shí)帶寬,保證優(yōu)化結(jié)果理想。

以上為神經(jīng)網(wǎng)絡(luò)方法(Concerto)的性能測試結(jié)果。左側(cè)圖中綠線為真實(shí)帶寬,藍(lán)線代表神經(jīng)網(wǎng)絡(luò)方法傳輸視頻的速率。可以看到,藍(lán)綠兩條線貼合較緊密,Concerto可以較好的預(yù)測可用帶寬,取得23%的QoE收益。它帶來的吞吐量收益是37%,同時(shí)幀延遲和其他傳輸方法相比幾乎沒有差距。

我們對研究成果感到十分興奮,并且進(jìn)行了實(shí)際試用。不過雖然Concerto在仿真器中訓(xùn)練后模擬的結(jié)果較好,而測試環(huán)境一旦更換為實(shí)際的testbed,優(yōu)化效果就出現(xiàn)顯著下降。在仿真器和真實(shí)環(huán)境下算法性能不一致,這是強(qiáng)化學(xué)習(xí)方法面臨的經(jīng)典“仿真-現(xiàn)實(shí)差異”問題。

實(shí)際在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,由于真實(shí)的網(wǎng)絡(luò)帶寬狀態(tài)瞬息萬變,仿真器難以“全真”模擬網(wǎng)絡(luò)的動(dòng)態(tài)性,并且模擬環(huán)境存在時(shí)效性,隨著網(wǎng)絡(luò)環(huán)境的不斷發(fā)展更新,模型在仿真器中學(xué)習(xí)的經(jīng)驗(yàn)面對實(shí)際環(huán)境可能變得“過時(shí)”。
2.2 從離線到在線

因此相較于原流程先收集用戶trace,離線在仿真器中學(xué)習(xí)后再部署,我們思考讓AI算法直接在實(shí)際網(wǎng)絡(luò)中學(xué)習(xí),面對真實(shí)的網(wǎng)絡(luò)環(huán)境。
這也是第二部分從離線到在線的分享內(nèi)容。該思路是簡單并符合直覺的,不過在落地過程中面臨很多挑戰(zhàn)。

首先是如何從真實(shí)網(wǎng)絡(luò)海量并發(fā)的視頻會(huì)話中學(xué)習(xí)?傳統(tǒng)的離線學(xué)習(xí)需要收集大量trace,例如視頻會(huì)話的丟包、吞吐量,將其聚合后在仿真器中進(jìn)行訓(xùn)練。而在線學(xué)習(xí)無法提前收集trace,并且視頻會(huì)話是大量同時(shí)并發(fā)進(jìn)行的,因此如何將序列化的離線學(xué)習(xí)轉(zhuǎn)變?yōu)椴⑿械脑诰€學(xué)習(xí)是亟需解決的問題。

針對該問題我們提出了兩階段的在線學(xué)習(xí)架構(gòu),第一個(gè)階段針對每個(gè)用戶訓(xùn)練個(gè)人模型,第二階段考慮不同的權(quán)重將各個(gè)個(gè)人模型進(jìn)行聚合,最終得到總結(jié)全部經(jīng)驗(yàn)的模型。聚合后的模型再被投放到各用戶運(yùn)行進(jìn)行迭代,最終形成穩(wěn)定版本。

以上方法的優(yōu)勢是通過加權(quán)聚合學(xué)習(xí)可以做到千人千面的個(gè)性化優(yōu)化,針對5G用戶或家庭WIFI等不同的環(huán)境,可以利用提高特定環(huán)境模型權(quán)重的方法進(jìn)行定制優(yōu)化。

第二個(gè)挑戰(zhàn)是,與在仿真器環(huán)境下神經(jīng)網(wǎng)絡(luò)可以完全控制傳輸層傳輸這一情況不同,真實(shí)系統(tǒng)中編碼器的數(shù)據(jù)傳輸要依據(jù)實(shí)際的畫面和網(wǎng)絡(luò)情況變化,它無法忠實(shí)執(zhí)行神經(jīng)網(wǎng)絡(luò)的策略,這為在線訓(xùn)練帶來了不利影響。

針對這個(gè)問題,我們考慮將實(shí)際環(huán)境中編碼器執(zhí)行神經(jīng)網(wǎng)絡(luò)決策的偏差再一次輸入到神經(jīng)網(wǎng)絡(luò)中,使神經(jīng)網(wǎng)絡(luò)了解并學(xué)會(huì)容忍決策偏差。

新的訓(xùn)練方法隨之形成,與原方案的對比情況見上圖,其中綠色點(diǎn)為離線方案,紅色點(diǎn)為在線方案。可以看到,新方案的對視頻的優(yōu)化性能提升很大。

以上是利用訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)在淘寶直播平臺(tái)上的視頻傳輸性能測試結(jié)果。可以看到丟包率、RTT和卡頓率都出現(xiàn)了減少。
2.3 從不可靠到可靠

接下來看最后一個(gè)問題。由于強(qiáng)化學(xué)習(xí)方法本質(zhì)上需要試錯(cuò),那么它不總是可靠的,在某些場景下會(huì)”翻車“。在使用它優(yōu)化視頻傳輸時(shí)也出現(xiàn)了對部分視頻會(huì)話場景優(yōu)化效果不好的情況。
經(jīng)過分析發(fā)現(xiàn),在這類場景下,雖然基于強(qiáng)化學(xué)習(xí)的方法在傳輸層具有明顯收益,但這種收益未能轉(zhuǎn)化成應(yīng)用層的視頻QoE收益,反而出現(xiàn)了幀延遲、幀抖動(dòng)和卡頓率增長。

我們剖析了問題成因,發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)方法帶來了長尾效應(yīng),造成傳輸時(shí)可能發(fā)生少量數(shù)據(jù)包發(fā)送延遲大的問題。然而,這些少量數(shù)據(jù)包的大延遲導(dǎo)致整幀畫面的過長等待。

究其根本在于,強(qiáng)化學(xué)習(xí)模型通過“試錯(cuò)”的方法來進(jìn)行訓(xùn)練。具體分析見上圖,其中黑線代表網(wǎng)絡(luò)帶寬,黃線代表GCC算法的傳輸速率,可以看到它穩(wěn)定處于可用帶寬下方。綠線代表強(qiáng)化學(xué)習(xí)模型的傳輸速率,可以看到有時(shí)它的速率會(huì)嚴(yán)重超出或低于可用帶寬,這實(shí)際是算法在進(jìn)行“試錯(cuò)”,這種Overshooting造成了視頻QoE的嚴(yán)重下降。

我們希望強(qiáng)化學(xué)習(xí)模型更加可靠,盡量避免長尾效應(yīng)。因此,考慮到規(guī)則方案的確定性能力,我們利用這個(gè)特性為強(qiáng)化學(xué)習(xí)方法設(shè)置了一個(gè)傳輸速率的最低門檻,通過將網(wǎng)絡(luò)信息同時(shí)輸入到兩種算法中,融合二者形成新的神經(jīng)網(wǎng)絡(luò)來進(jìn)行決策。

前人曾經(jīng)做過類似工作,它被稱作決策級(jí)融合,通過收集規(guī)則和強(qiáng)化學(xué)習(xí)算法分別的預(yù)測結(jié)果來做出最終決策,但整個(gè)過程顯得生搬硬套,二者只能算作一種無機(jī)結(jié)合。為了使二者能深度融合,我們采用了一種特征級(jí)融合思路,通過將GCC規(guī)則算法黑盒化為神經(jīng)網(wǎng)絡(luò),結(jié)合二者的神經(jīng)元來進(jìn)行訓(xùn)練。

融合后的模型測試效果見上圖,圖中紅線代表融合模型Loki,紫色線代表純強(qiáng)化學(xué)習(xí)OnRL模型,可以看到長尾效應(yīng)被徹底消除,Loki模型將95分位卡頓率降低了26.3%~44.24%,這是特征級(jí)融合的好處,它與決策級(jí)融合模型的具體比較情況可以在上述論文成果中查閱。

在此展示特征級(jí)融合效果的一個(gè)showcase,詳細(xì)介紹也可以參考我們的論文成果。其中左側(cè)第一個(gè)情景為帶寬升高,在該情景下應(yīng)該由強(qiáng)化學(xué)習(xí)模型起主導(dǎo)作用,因?yàn)樗梢猿浞掷糜行挘梢钥吹絉L模型的注意力較強(qiáng)。在相反的帶寬降低的情景下,應(yīng)該由規(guī)則算法做主導(dǎo),避免激進(jìn)決策影響傳輸質(zhì)量,右側(cè)圖中展示的實(shí)際情況也是如此。
-03-
現(xiàn)網(wǎng)驗(yàn)證

最終簡單介紹現(xiàn)網(wǎng)驗(yàn)證情況,首先上圖為實(shí)驗(yàn)情況,我們將GCC改為強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的RTC controller,右側(cè)為效應(yīng)場景。

Loki模型在超過一億的視頻場景下進(jìn)行了大規(guī)模實(shí)際部署,可以看到它在不同情況下將卡頓率降低了13.98%~27.27%,將視頻質(zhì)量提升了約1%~5%。

該優(yōu)化服務(wù)收獲了很多用戶,也獲得了阿里巴巴和中國電子學(xué)會(huì)的相關(guān)獎(jiǎng)項(xiàng)。

最后進(jìn)行未來展望。除了視頻質(zhì)量提升外,各位從業(yè)者對成本控制可能也較為關(guān)注。當(dāng)前網(wǎng)絡(luò)大的發(fā)展趨勢是向Web 3.0來演進(jìn),由于它是分布式的,用戶也會(huì)擁有自己的數(shù)據(jù)。我們在思考是否可以讓用戶也參與視頻的直播和分發(fā)。
這與傳統(tǒng)p2p的思路一致,不過p2p在設(shè)計(jì)時(shí)并未考慮視頻傳輸?shù)难舆t和苛刻的質(zhì)量要求,如何使用p2p方法把視頻傳輸做好是我們當(dāng)前主要的探索方向。

第二個(gè)方向是如何做好遠(yuǎn)程控制,我們知道無論如何優(yōu)化,網(wǎng)絡(luò)總是存在延遲卡頓的,如何在上層消除延遲帶來的不利影響,真正實(shí)現(xiàn)實(shí)時(shí)遠(yuǎn)程操控也是我們正在探索的問題。

剛才分享的內(nèi)容均可以從以上論文中查閱,也歡迎大家就有關(guān)問題進(jìn)行交流,今天我的分享到此結(jié)束,謝謝大家!
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場,澎湃新聞僅提供信息發(fā)布平臺(tái)。申請澎湃號(hào)請用電腦訪問http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司