音頻正當時：和音頻專家聊AI、元宇宙、空間音頻和沉浸感

2022-04-19 15:55

來源：澎湃新聞·澎湃號·湃客

編者按： 樹枝上鳥兒的啁啾聲，潺潺流水聲，人們踏青時的歡歌笑語聲，與春暖花開的畫面融合在一起，呈現出一幅春色正濃的動態美景。可是當一切聲音被消除，整個世界陷入沉寂，這幅美麗的春景圖仿佛也在瞬間失去了色彩。聲音在我們的日常生活中占據著至關重要的地位，與聲音相對應的音頻也是如此：音頻可以獨立于視頻存在，而且音頻的感知受到長短時記憶的影響更明顯。這也是為什么音頻可以調動人的情緒變化和好惡感知。

近日，LiveVideoStack采訪到了聲網的音頻算法負責人馮建元，請他來跟大家聊聊音頻相對于視頻的優勢、音頻在元宇宙中的應用、國內音頻技術與AI結合的發展、過去一年聲網在音頻領域所取得突破和對前沿音頻技術的探索，以及他本人所主導過的成功項目等。

聲網音頻算法負責人馮建元

LiveVideoStack: 馮老師，您好，歡迎您參加我們的訪談，還請您向LiveVideoStack的讀者介紹一下自己以及您目前關注的技術。

馮建元： 大家好，我是來自聲網音頻體驗團隊的馮建元。博士畢業于伊利諾伊理工，伊利諾伊大學芝加哥分校的特聘研究員，有過一年創業經驗。現在在聲網主要負責新一代實時音頻引擎的研發。我關注的音頻領域還是比較多的，從基于AI的語音編解碼器、空間音頻到聲紋變聲等都有在關注和嘗試。

LiveVideoStack: 您深耕音頻行業多年，先后主導過多個實時音頻通訊領域的開發項目，在這些項目中，您最引以為傲的是哪一個？這個項目取得了什么樣的成就？

馮建元： 如果在去年我會認為是我們發布了國內第一個AI語音編解碼器Silver，它把碼率降至3kbps還能做到32kHz采樣的高質量語音編解碼。到了今年，實時空間音頻渲染引擎是我最引以為傲的項目，它實現了音頻更高維度的管理，你可以任意改變所處的空間、位置，而你所感知的聲音也隨之變化，這讓我們向沉浸式體驗又多進了一步。

LiveVideoStack: 目前AI與音頻技術的結合已經成為一種趨勢，比如AI技術常用于音頻降噪、回聲消除和音頻特效等。除此之外，AI和音頻的技術結合還有哪些新的探索？

馮建元： AI技術可以滲透到音頻的方方面面，它可以說是一個基礎工具，從檢測類的音樂檢測、哮叫檢測、VAD、music information到增強類的降噪、回聲消除、音源分離，再到生成類的ASR、TTS、實時變聲，甚至空間音頻中的個性化HRTF都可以用AI模型生成，可以說AI幾乎已經融入到了音頻的每一個角落。

LiveVideoStack: 據您了解，與海外相比，國內對于AI與音頻技術結合的探索目前處于什么階段？有哪些差距或者超越的地方？

馮建元： 我覺得國內在AI與音頻技術結合上已經是國際第一流的水平，尤其在嚴肅、傳統的3A處理領域。在音樂、AI Codec等比較新的領域，我們則可能處于平分秋色或者在前沿探索方面略顯滯后。

LiveVideoStack: 過去一年，在對音頻技術領域的探索過程中，聲網取得了哪些突破？克服了哪些技術上的困難？

馮建元： 說起技術突破那還是有不少的。我們打造了一套專為RTC設計的實時音頻渲染引擎，可以低功耗地在普通手機上實現多人位置、朝向、聲音模糊等一系列空間音頻的渲染。我們把AI降噪做到了世界領先，在降噪魯棒性、語譜保真等方面都有了很大的提高。還有剛才說的，我們還發布了基于AI的語音編解碼器，可以做到超低帶寬的高質量語音傳輸。

LiveVideoStack: 今年聲網還將探索哪些前沿的音頻技術？您能否為我們介紹一下。

馮建元： 今年我們也有很多有意思的探索，包括如何在“元宇宙”的場景中實現全方位的沉浸感，這就包括空間音頻、實時聲紋變聲等技術。比如我們最近在做的實時聲紋變聲可以實現可定制的any to any的實時變聲，加上空間音頻的加持，以后我們的聲音就可以在任意位置以任意形態出現。除此之外，我們還將針對音樂場景做一系列的編解碼器、音樂AEC等方向的探索來提升實時音樂場景的體驗。大家敬請期待。

LiveVideoStack: 元宇宙是最近一年以來非常火的概念，很多領域的專家都在探討它的實現。您如何看待元宇宙的發展？您認為音頻將在元宇宙中發揮什么樣的作用？

馮建元： 我們在游戲、社交、協作的交互隨著媒介的變化而不斷改變。我認為隨著VR、AR技術尤其是基于交互體驗的進步，我們其實是一步一步朝著元宇宙的方向發展的。這個概念會火代表著人們確實覺得我們現在的交互是有很多待改進的地方。音頻在其中，其實就是要讓聲音做到“聲臨其境”。這就包括兩個部分：“消滅”和“重塑”。消滅所有會影響臨場感的因素包括噪聲、混響、回聲、雜音等等，然后根據所處的真實或虛擬的環境，重塑其中的音源和空間感知。

LiveVideoStack: 您認為相對于視頻，音頻有哪些不可取代的優勢？您如何看待它的發展前景？

馮建元： 音頻可以獨立存在且音頻的感知受到長短時記憶的影響更明顯。這也是為什么音頻可以調動人的情緒變化和好惡感知。人們對音頻的變化相比較視頻會更為敏感。所以在交互過程中，音頻承載的信息量就會比較大且可獨立于視頻而存在。然而音頻的發展和視頻的發展應該是相輔相成的，畢竟在未來更為沉浸的交互過程里兩者缺一不可。

LiveVideoStack: 對于未來有志于從事音頻技術開發的人，您能否從自身的經驗出發給出一些切實可行的建議？

馮建元： 我最近和極客時間合作了一個《搞定音頻技術》的課程。我在制作這個課程的時候發現音頻技術涉及的面是非常廣的，但是音頻最后都會被耳朵接收。如果能保持一個聽覺上的敏感，就能發現很多音頻處理可能發生的問題和可以改進的點。另外除了日常學習工作，大家追劇、看動漫、玩游戲、在線聊天的過程中不妨感受一下好聽的聲音是什么樣的，影視作品和平時聽的聲音有什么區別，看看導演音頻處理得到不到位，這些都能讓你保持旺盛的好奇心與鉆研音頻的興趣。

LiveVideoStack: 對于本次大會，您有哪些期待？在會上，您將為我們帶來哪些精彩內容？

馮建元： 這次的LiveVideoStack音視頻技術大會正好在元宇宙概念興起與疫情導致音視頻交互被大量使用的時間節點上，我期望能看到更多精彩有趣的音視頻技術方案來提升我們的交互方式。在大會上，我將會為大家介紹聲網在實時空間音頻渲染的探索和進展，一起探討一下我們如何讓RTC也能有“聲臨其境”的交互體驗。

封面圖來自Unsplash，by Richard Horvath