- +1
告別視頻通話“渣畫質”,英偉達新算法最高壓縮90%流量
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
為了讓網速慢的用戶用上高清通話,英偉達可謂絞盡腦汁。他們開發的新AI算法,可以將視頻通話的流量最高壓縮90%以上。


H.264視頻所需的帶寬是這種新算法的2~12倍,從前面的演示也能看出,如果讓二者使用相同比特率,那么H.264視頻幾乎不可用。

英偉達提供了一個試用Demo,可以在Pitch(俯仰角)、Yaw(偏航角)、Roll(翻滾角)三個方向上任意旋轉。



合成面部視頻
我們把上傳的清晰照片作為源圖像,從中獲取外貌特征。然后把視頻中一幀幀畫面作為重構視頻的依據,從中提取出面部表情和頭部姿勢等信息。
而表情和姿勢這兩個數據可以通過關鍵點進行編碼,這樣就分離了人物身份信息和運動信息。在傳輸視頻時只要有運動信息即可,從而節約了流量。

其中,雅可比矩陣表示如何通過仿射變換將關鍵點周圍的局部補丁轉換為另一幅圖像中的補丁。如果是恒等雅可比矩陣,則補丁將直接復制并粘貼到新位置。


接下來開始合成視頻。使用源和運動的關鍵點與其雅可比矩陣來估計流wk,從生成流組合成掩碼m,將這兩組進行線性組合即可產生合成流場w。

這種方法不僅能用于視頻通話,也有其他“新玩法”。
比如覺得人物頭像有點歪,可以手動輸入糾正后的數據,從而將面部轉正。


這篇文章的第一作者是來自英偉達的高級研究員Ting-Chun Wang。



兩人之前已經有過多次合作。比如。無監督圖像遷移網絡(NIPS 2017),還有從涂鴉生成照片的GauGAN(CVPR 2019),都是出自這二位之手。
項目頁面:
https://nvlabs.github.io/face-vid2vid/
論文地址:
https://arxiv.org/abs/2011.15126
— 完 —
本文系網易新聞?網易號特色內容激勵計劃簽約賬號【量子位】原創內容,未經賬號授權,禁止隨意轉載。
原標題:《告別視頻通話“渣畫質”,英偉達新算法最高壓縮90%流量》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司