在剛剛過(guò)去的 ICASSP 2023 聲學(xué)回聲消除(AEC)挑戰(zhàn)賽中,火山引擎 RTC 團(tuán)隊(duì)聯(lián)合西北工業(yè)大學(xué)音頻語(yǔ)音與語(yǔ)言處理研究實(shí)驗(yàn)室,在通用回聲消除 (Non-personalized AEC) 與特定說(shuō)話人回聲消除 (Personalized AEC) 兩個(gè)賽道上榮獲冠軍,并在雙講回聲抑制,雙講近端語(yǔ)音保護(hù)、近端單講背景噪聲抑制、綜合主觀音頻質(zhì)量打分及最終語(yǔ)音識(shí)別準(zhǔn)確率等多項(xiàng)指標(biāo)上顯著優(yōu)于其他參賽隊(duì)伍,達(dá)到國(guó)際領(lǐng)先水平。
【資料圖】
其中“N”代表通用AEC,“Y”代表特定說(shuō)話人AEC,綠色越深代表指標(biāo)表現(xiàn)越好
ICASSP AEC 挑戰(zhàn)賽由國(guó)際音頻頂級(jí)會(huì)議 ICASSP 和微軟聯(lián)合發(fā)起,旨在激發(fā)聲學(xué)回聲消除領(lǐng)域的研究,自第一屆舉辦以來(lái)就吸引了亞馬遜、騰訊、阿里巴巴、百度、快手、中科院、西工大等全球諸多知名企業(yè)和科研院所的參與。今年的 ICASSP AEC 也不例外,參賽隊(duì)伍之多之強(qiáng),使 AEC 成為 ICASSP 2023 各項(xiàng)賽事中競(jìng)爭(zhēng)最為激烈的賽道之一。
ICASSP AEC 挑戰(zhàn)賽要求各參賽隊(duì)伍對(duì) 10,000 多個(gè)來(lái)自于真實(shí)音頻設(shè)備和真實(shí)環(huán)境下的錄音數(shù)據(jù)進(jìn)行 AEC 模型訓(xùn)練,并根據(jù)單講/雙講等場(chǎng)景中獲得的主觀平均意見分以及語(yǔ)音識(shí)別率綜合評(píng)判名次。火山引擎 RTC 通過(guò)對(duì)時(shí)延補(bǔ)償模塊、線性 AEC模塊、殘留回聲抑制處理模塊進(jìn)行優(yōu)化,有效降低了 AEC 模型的復(fù)雜度,提升了回聲的抑制效果。同時(shí),通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增廣,使 AEC 處理框架可以覆蓋更多場(chǎng)景的回聲處理問(wèn)題。最終,團(tuán)隊(duì)在遠(yuǎn)端單講回聲抑制、近端單講信號(hào)保護(hù)、雙講回聲抑制、雙講近端語(yǔ)音保護(hù)等各子場(chǎng)景中均發(fā)揮出色,取得總分第一的成績(jī)。
AEC 處理框架
另外,今年的 ICASSP AEC 挑戰(zhàn)賽首次增加了特定說(shuō)話人 AEC 賽道。過(guò)去,通用回聲消除技術(shù)(Non-personalized AEC)在線上使用較多,特定說(shuō)話人回聲消除技術(shù)(Personalized AEC)則更多出現(xiàn)在學(xué)術(shù)研究領(lǐng)域。隨著回聲消除應(yīng)用的場(chǎng)景越來(lái)越廣泛、越來(lái)越復(fù)雜,特定說(shuō)話人 AEC 也越來(lái)越受到人們關(guān)注。延續(xù)在通用 AEC 領(lǐng)域的技術(shù)優(yōu)勢(shì),火山引擎 RTC 在特定說(shuō)話人 AEC 賽道也榮獲冠軍。
傳統(tǒng) AEC + 深度學(xué)習(xí)雙管齊下,解決復(fù)雜雙講場(chǎng)景中的回聲消除難題
回聲消除是音視頻通話中最難的音頻技術(shù)之一,而“雙講”則是回聲消除應(yīng)用中最復(fù)雜的場(chǎng)景。在視頻會(huì)議、線上小班課等多人音視頻通話場(chǎng)景中,如果近端和遠(yuǎn)端同時(shí)說(shuō)話,遠(yuǎn)端的聲音信號(hào)通過(guò)揚(yáng)聲器播放出來(lái),又和近端的聲音混合在一起被麥克風(fēng)采集進(jìn)去,遠(yuǎn)端就會(huì)聽到回聲,且聽不清近端的語(yǔ)音內(nèi)容。雙講場(chǎng)景回聲消除比普通場(chǎng)景回聲消除難度要大——因?yàn)榧刃枰堰h(yuǎn)端的回聲盡量消除干凈,又不能矯枉過(guò)正,保護(hù)近端的語(yǔ)音信號(hào)盡量不被損傷。
以下是火山引擎 RTC 在雙講場(chǎng)景的回聲消除效果。
處理前的聲紋(上)
處理后對(duì)聲紋(下)
在雙講場(chǎng)景中,當(dāng)回聲的能量遠(yuǎn)遠(yuǎn)高于目標(biāo)說(shuō)話人的能量(比如揚(yáng)聲器離麥克風(fēng)太近或其他原因),就會(huì)形成超低信回比場(chǎng)景(比如-20db以下)。下面這段樣本中,女聲為目標(biāo)說(shuō)話人語(yǔ)音,男生為非目標(biāo)說(shuō)話人語(yǔ)音(回聲),目標(biāo)語(yǔ)音幾乎被非目標(biāo)語(yǔ)音完全覆蓋了,回聲消除挑戰(zhàn)極大。
超低信回比雙講場(chǎng)景處理前的聲紋
火山引擎 RTC 對(duì) AEC 處理框架中的線性 AEC 模塊和殘留回聲抑制處理模塊進(jìn)行了創(chuàng)新性優(yōu)化:在線性 AEC 模塊中,保護(hù)近端語(yǔ)音不受損傷的同時(shí),最大程度抑制回聲中的線性成分,減輕后續(xù)殘留回聲抑制模型的負(fù)擔(dān);在殘留回聲抑制模塊中,基于低延時(shí)深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)抑制回聲中非線性殘留成分,同時(shí)在特定說(shuō)話人回聲消除 Track 上額外引入說(shuō)話人聲紋信息,在去除回聲的同時(shí)也抑制非目標(biāo)說(shuō)話人的語(yǔ)音。通過(guò)以上處理,火山引擎 RTC 在超低信回比雙講場(chǎng)景中也取得了優(yōu)秀的回聲消除效果。
超低信回比雙講場(chǎng)景處理后的聲紋
為線上各類互動(dòng)場(chǎng)景提供更清晰、動(dòng)聽的音質(zhì)體驗(yàn)
視頻會(huì)議、在線教育、語(yǔ)聊房、游戲開黑、在線 KTV、“一起看”、“一起玩”……線上互動(dòng)場(chǎng)景正變得越來(lái)越豐富,對(duì) RTC 的技術(shù)挑戰(zhàn)也越來(lái)越高,比如更飽滿的音質(zhì)、更清晰的畫質(zhì)、更流暢、穩(wěn)定的使用體驗(yàn)等等。在音質(zhì)方面,火山引擎 RTC 基于自研語(yǔ)音編碼器 NICO,結(jié)合深度學(xué)習(xí)的 3A 算法、AI 降噪算法、語(yǔ)音檢測(cè)算法等技術(shù),不斷提升音頻的編碼質(zhì)量、抗丟包能力和處理性能,已成功為抖音世界杯“邊看邊聊”直播間、飛書視頻會(huì)議、《Mobile Legends: Bang Bang(無(wú)盡對(duì)決)》等提供高質(zhì)量的音頻服務(wù)。
未來(lái),火山引擎 RTC 還將不斷探索前沿音頻技術(shù),并與業(yè)務(wù)場(chǎng)景高效結(jié)合,打造更具針對(duì)性的場(chǎng)景適配策略,持續(xù)為各類線上互動(dòng)場(chǎng)景提供更清晰、更動(dòng)聽的音質(zhì)體驗(yàn)。
點(diǎn)擊閱讀原文,了解產(chǎn)品更多信息。
https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2
作者:陳晨