▓成人丝瓜视频▓无码免费,99精品国产一区二区三区不卡 ,大长腿白丝被c到爽哭视频 ,高清无码内谢

澎湃Logo
下載客戶端

登錄

  • +1

Prime Video如何使用AI確保視頻質量

2022-04-26 20:03
來源:澎湃新聞·澎湃號·湃客
字號

翻譯 | Argus

技術審校 | 曾凱

本文來自Amazon Science Blog,作者為Sathya Balakrishnan、Ihsan Ozcelik。

▲掃描圖中二維碼了解音視頻技術大會更多信息▲

影音探索 #008#

用于檢測宏塊損壞、音頻失真和音視頻同步錯誤的檢測器是Prime Video的三個質量保證工具。

流媒體視頻在錄制、編碼、打包或傳輸過程中可能會出現缺陷,因此大多數訂閱視頻服務(如亞馬遜Prime Video)都會不斷評估其流媒體內容的質量。

人工內容審查(稱為人眼主觀測試,eyes-on-glass testing)無法實現規模化,而且它自身也具備很多挑戰,例如審查者對質量看法的差異。業內更常見的是使用數字信號處理來檢測視頻信號中的異常情況,這些異常情況經常與缺陷相關。

三年前,為了驗證新的應用版本或編碼配置文件的離線更改,Prime Video的視頻質量分析(Video Quality Analysis ,VQA)小組開始使用機器學習來識別多種設備(如游戲機、電視和機頂盒)所獲取的內容中的缺陷。最近,我們將同一技術應用到了實時質量監測數千個頻道和實時事件,以及大規模分析新的點播內容等問題上。

亞馬遜Prime Video宏塊損壞檢測器的初始版本使用殘差神經網絡來生成表示特定圖像位置損壞概率的指示圖,將該圖二進制化,并計算損壞區域和總圖像區域之間的面積比率。

我們的VQA團隊訓練計算機視覺模型,以觀察視頻并發現可能損害用戶觀看體驗的問題,如塊狀幀、意外黑幀和音頻噪音。這使我們能夠處理數以萬計的直播與點播視頻。

我們面臨的一個有趣的挑戰是,由于Prime Video產品中視聽缺陷的發生率極低,所以訓練數據中缺乏正面案例。我們用一個模擬原始內容缺陷的數據集來應對這一挑戰。在使用這個數據集開發檢測器之后,我們通過對一組實際缺陷進行測試來驗證檢測器能否用于實際的線上所生產的內容。

示例:我們如何將音頻咔噠聲加入純凈音頻

純凈音頻的波形

純凈音頻

添加了咔噠聲的音頻波形

添加了咔噠聲的受損音頻 音頻: 進度條 00:00 00:10 后退15秒 倍速 快進15秒

添加了咔噠聲的受損音頻

純凈音頻的頻譜圖

 

添加了咔噠聲的音頻頻譜圖

我們已經為18種不同類型的缺陷開發了檢測器,包括視頻畫面停滯和卡頓、視頻撕裂、音頻和視頻之間的不同步,以及字幕質量問題。下面,我們重點看一下三種缺陷:宏塊損壞、音頻失真和音視頻同步問題。

宏塊損壞(Block corruption)

使用數字信號處理進行質量分析的一個缺點是,它可能難以區分某些類型的真實內容和有缺陷的內容。例如,對信號處理器來說,人群中的場景或運動量大的場景可能看起來像有宏塊損壞的場景。在這種情況下,傳輸障礙導致幀內像素塊的位移,或導致像素塊都使用相同的色值。

宏塊損壞的示例(00:06)

為了檢測宏塊損壞,我們使用了一個殘差神經網絡,這種網絡的設計使較高的塊層(block layer)可以明確糾正下面塊層所遺漏的錯誤(殘差)。我們將ResNet18[1]神經網絡的最后一層替換為1x1卷積(神經網絡圖中的conv6)。

宏塊損壞檢測器架構

這一層的輸出是一個二維圖,其中每個元素都是特定圖像區域中宏塊損壞的概率。這個二維圖取決于輸入圖像的大小。在該圖中,一個224 x 224 x 3的圖像傳遞給神經網絡,輸出是一個7 x 7的二維圖。在下面的例子中,我們將一張高清圖像傳給神經網絡,結果輸出的是34 x 60像素的二維圖。

在這個工具的初始版本中,我們對二維圖進行了二進制化處理,并計算出損壞面積的比率:

corruptionArea = areaPositive/totalArea

如果這個比率超過了某個閾值(事實證明0.07很有效),那么我們就把這一幀標記為有宏塊損壞。(見上面的動畫)

然而,在該工具的當前版本中,我們將決策函數移動到模型中,因此它是與特征提取一起學習的。

音頻失真檢測(Audio artifact detection)

“音頻失真”是音頻信號中不需要的聲音,它可能是通過錄音過程或數據壓縮引入的。在后一種情況下,它相當于音頻中一個損壞的宏塊。然而,有時其他創造性的原因也會引入音頻失真。

為了檢測視頻中的音頻失真,我們使用了一個無參考模型,這意味著在訓練期間,它無法獲得純凈音頻作為比較標準。該模型基于預先訓練的音頻神經網絡,將一秒鐘的音頻片段分類為無缺陷、嗡嗡聲、嘶嘶聲、音頻失真或音頻咔嗒聲。

目前,該模型在我們專有的模擬數據集上達到了0.986的平衡準確率(balanced accuracy)。關于該模型的更多信息可以在我們的論文《使用預訓練的音頻神經網絡檢測音頻人工無參考模型》(A no-reference model for detecting audio artifacts using pretrained audio neural networks)中找到,我們在今年的IEEE計算機視覺應用冬季會議上發表了這篇文章[2]。

帶有失真音頻的視頻示例(00:06)

音視頻同步檢測(Audio/Video sync detection)

另一個常見的質量問題是音視頻同步或唇音同步缺陷,即音頻與視頻不一致。直播、接收和播放過程中產生的問題會使音頻和視頻不同步。

為了檢測唇音同步缺陷,我們開發了一個檢測器——我們稱之為LipSync(基于牛津大學的SyncNet架構[3])。

LipSync管道的輸入是一個四秒鐘的視頻片段。它被傳遞給一個鏡頭檢測模型,用于識別鏡頭邊界;然后傳遞給用于識別每一幀中人臉的人臉檢測模型;再傳遞給用于識別連續幀中屬于同一人臉的人臉跟蹤模型。

提取人臉軌跡的預處理管道:以單個人臉為中心的四秒鐘片段

人臉跟蹤模型的輸出(被稱為人臉軌跡)和相關的音頻然后傳遞給SyncNet模型,該模型匯總整個人臉軌跡以決定該片段是否同步、不同步或不確定,這意味著要么沒有檢測到人臉/人臉軌跡,要么有相同數量的同步和不同步的預測結果。

未來工作

以上這些是我們工具庫中的一些精選檢測器。在2022年,我們將繼續努力完善和改進我們的算法。在正在進行的工作中,我們正在使用主動學習(active learning,通過算法選擇信息特別有價值的訓練實例)來不斷地重新訓練我們部署的模型。

為了生成合成數據集,我們正在研究EditGan[4],這是一種新方法,可以更精確地控制生成式對抗網絡(GAN)的輸出。我們還在使用我們定制的AWS云原生應用程序和SageMaker實現來擴展我們的缺陷檢測器,以監測所有實時事件和視頻信道。

注釋:

1.https://arxiv.org/pdf/1512.03385.pdf

2.https://www.amazon.science/publications/a-no-reference-model-for-detecting-audio-artifacts-using-pretrained-audio-neural-networks

3.https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf

4.https://proceedings.neurips.cc/paper/2021/file/880610aa9f9de9ea7c545169c716f477-Paper.pdf

原文鏈接:

https://www.amazon.science/blog/how-prime-video-uses-machine-learning-to-ensure-video-quality

編輯:Alex

封面圖片來自Unsplash,by Aditya Chinchure

    本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網安備31010602000299號

            互聯網新聞信息服務許可證:31120170006

            增值電信業務經營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業有限公司

            反饋
            主站蜘蛛池模板: 大荔县| 靖西县| 牡丹江市| 库伦旗| 文登市| 延川县| 陇川县| 满城县| 惠东县| 琼结县| 调兵山市| 瓦房店市| 扎兰屯市| 临海市| 定南县| 平武县| 陈巴尔虎旗| 固原市| 虎林市| 山东省| 宜昌市| 元谋县| 楚雄市| 济源市| 成武县| 阜南县| 鸡西市| 民勤县| 赫章县| 德庆县| 宿州市| 新和县| 达孜县| 浦北县| 武义县| 二连浩特市| 廊坊市| 南靖县| 泸水县| 稷山县| 类乌齐县|