[發(fā)明專利]時延估計方法、裝置、終端設(shè)備和計算機(jī)可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011383681.6 | 申請日: | 2020-12-01 |
| 公開(公告)號: | CN112489670B | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計)人: | 易安希;許慎愉 | 申請(專利權(quán))人: | 廣州華多網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0216;G10L21/0232;G10L21/0264;H04M9/08 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 郭帥 |
| 地址: | 511442 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 估計 方法 裝置 終端設(shè)備 計算機(jī) 可讀 存儲 介質(zhì) | ||
本申請?zhí)峁┝艘环N時延估計方法、裝置、終端設(shè)備和計算機(jī)可讀存儲介質(zhì);方法包括獲取麥克風(fēng)采集的近端音頻數(shù)據(jù)和緩存的遠(yuǎn)端音頻數(shù)據(jù)并分別對其進(jìn)行預(yù)處理生成對應(yīng)的近端頻域信號和遠(yuǎn)端頻域信號;分別計算當(dāng)前幀近端頻域信號的平滑功率譜、各幀遠(yuǎn)端頻域信號的平滑功率譜以及當(dāng)前幀近端頻域信號與各幀遠(yuǎn)端頻域信號的互功率譜,及兩者的相似系數(shù);選擇最大的相似系數(shù)對應(yīng)的時延瞬時值記為當(dāng)前幀近端頻域信號的初始時延估計值;根據(jù)緩存的歷史時延瞬時值來對初始時延估計值進(jìn)行評估判斷,并根據(jù)評估判斷結(jié)果得到更新時延估計值;根據(jù)更新時延估計值、記錄的遠(yuǎn)端音頻數(shù)據(jù)與近端音頻數(shù)據(jù)的幀數(shù)差值確定最終時延估計值。該方法的時延估計值更加精準(zhǔn)。
技術(shù)領(lǐng)域
本申請涉及語音信號處理技術(shù)領(lǐng)域,具體涉及一種時延估計方法、裝置、終端設(shè)備和計算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
隨著通信技術(shù)的發(fā)展,越來越多應(yīng)用場景涉及通話過程,例如,用戶利用智能終端進(jìn)行視頻/語音通話,或者,用戶通過視頻會議系統(tǒng)進(jìn)行電話會議時的通話,又或者,由聊天機(jī)器人參與的會話系統(tǒng)所涉及的會話。而回聲消除是通話過程中必須解決的問題。
回聲分為聲學(xué)回聲和線路回聲,線路回聲是由線路間匹配耦合引起的,聲學(xué)回聲是在外放的語音通話系統(tǒng)中,揚(yáng)聲器的聲音多次反饋到麥克風(fēng)引起的。聲學(xué)回聲消除,就是要從麥克風(fēng)收到的語音中消除揚(yáng)聲器發(fā)出的聲音,得到消除回聲后的近端語音。回聲消除的模型見圖1。在回聲消除系統(tǒng)中,揚(yáng)聲器端發(fā)出的語音參考信號叫做遠(yuǎn)端信號,麥克風(fēng)收到的揚(yáng)聲器發(fā)出的聲音和語音組合而成的信號叫做近端信號,遠(yuǎn)端信號發(fā)出后,一部分語音直接傳送到麥克風(fēng)端,這部分回聲與近端信號時延較小;另一部分信號在有限空間的房間內(nèi)多次反射后傳到近端,這部分回聲時延較大。回聲消除的過程就是根據(jù)遠(yuǎn)端信號與近端信號的相關(guān)性,估算出回聲信號,并將回聲信號從近端信號中消除,得到純凈的語音。
時延估計是影響聲學(xué)回聲消除效果的關(guān)鍵技術(shù),準(zhǔn)確的時延估計可以大大的優(yōu)化回聲的消除效果。然而在實(shí)際中,時延估計準(zhǔn)確度受限于算法以及計算的精度。目前,通常采用aec(acoustic?echo?cancellation,即聲學(xué)回聲消除)算法來進(jìn)行時延估計,但是在實(shí)際IP通信系統(tǒng)中,網(wǎng)絡(luò)傳輸延時不穩(wěn)定,播放與采集處于不同的線程。對于aec模塊而言會存在遠(yuǎn)端數(shù)據(jù)與近端數(shù)據(jù)幀數(shù)存在抖動的問題,影響aec的時延估計的準(zhǔn)確性。
申請內(nèi)容
有鑒于此,本申請實(shí)施例中提供了一種時延估計方法、裝置、終端設(shè)備和計算機(jī)可讀存儲介質(zhì),以克服現(xiàn)有技術(shù)中因遠(yuǎn)端數(shù)據(jù)與近端數(shù)據(jù)幀數(shù)存在抖動從而造成時延估計不準(zhǔn)確的問題。
第一方面,本申請實(shí)施例提供了一種時延估計方法,該方法包括:
獲取麥克風(fēng)采集的近端音頻數(shù)據(jù)和緩存的遠(yuǎn)端音頻數(shù)據(jù),并對所述近端音頻數(shù)據(jù)和所述緩存的遠(yuǎn)端音頻數(shù)據(jù)進(jìn)行預(yù)處理生成對應(yīng)的近端頻域信號和遠(yuǎn)端頻域信號;其中所述近端頻域信號和所述遠(yuǎn)端頻域信號包括多幀;
分別計算當(dāng)前幀近端頻域信號的平滑功率譜、各幀遠(yuǎn)端頻域信號的平滑功率譜以及所述當(dāng)前幀近端頻域信號與各幀所述遠(yuǎn)端頻域信號的互功率譜,并計算所述當(dāng)前幀近端頻域信號與各幀所述遠(yuǎn)端頻域信號的相似系數(shù);
選擇最大的所述相似系數(shù)對應(yīng)的時延瞬時值記為所述當(dāng)前幀近端頻域信號的初始時延估計值;其中,所述時延瞬時值是采用記錄的遠(yuǎn)端音頻數(shù)據(jù)與近端音頻數(shù)據(jù)的幀數(shù)差值對實(shí)際時延估計值進(jìn)行校正得到的;
根據(jù)緩存的歷史時延瞬時值來對所述初始時延估計值進(jìn)行評估判斷,并根據(jù)評估判斷結(jié)果得到更新時延估計值;
根據(jù)所述更新時延估計值、記錄的遠(yuǎn)端音頻數(shù)據(jù)與近端音頻數(shù)據(jù)的幀數(shù)差值確定最終時延估計值。
第二方面,本申請實(shí)施例提供了一種時延估計裝置,該裝置包括:
音頻數(shù)據(jù)獲取模塊,用于獲取麥克風(fēng)采集的近端音頻數(shù)據(jù)和緩存的遠(yuǎn)端音頻數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州華多網(wǎng)絡(luò)科技有限公司,未經(jīng)廣州華多網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011383681.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





