[發明專利]混響語音的混響抑制方法及裝置有效
| 申請號: | 202011521566.0 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112687284B | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 李軍鋒;孫興偉;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0224;G10L21/0232;G10L25/30 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混響 語音 抑制 方法 裝置 | ||
本發明提供了一種混響語音的混響抑制方法及裝置,應用于接收語音的終端,包括:利用編碼器模型獲得混響語音時域信號的幅度譜對應的多個尺度下的編碼特征;根據混響時間對多個尺度的編碼特征進行加權處理;根據加權處理后的編碼特征,利用解碼器模型獲得新的幅度譜;對新的幅度譜進行相關計算,獲得混響語音時域信號經過混響抑制后的直達語音時域信號;本發明通過混響時間對多個尺度的編碼特征進行處理,使本方案可以適應不同環境下混響抑制,提高了進行混響抑制的模型的魯棒性。
技術領域
本發明涉及語音信號處理技術領域,尤其涉及一種混響語音的混響抑制方法及裝置。
背景技術
語音混響抑制技術主要是去除語音信號中的混響語音,提高語音的質量和可懂度,從而在語音識別和人耳理解方面取得更好的表現。
由于混響語音信號對應于無混響語音信號和房間沖激響應的卷積,因此,現有技術中的一種混響抑制方法是通過估計房間沖激響應的逆濾波器實現混響抑制。
現有技術中的另一種混響抑制方法是基于深度神經網絡的混響抑制方法。其通過訓練神經網絡模型進行掩蔽估計或譜映射,從混響語音中獲得混響抑制后的直達聲信號。
基于深度神經網絡的混響抑制方法相對于前者的方法,在混響抑制程度上存在優勢。但是在模型的輸入特征的利用中,沒有考慮通過結合環境信息來動態選擇多個尺度的包含語音信號上下文信息的編碼特征,導致模型對于不同環境變化的魯棒性欠佳。
發明內容
本發明實施例提供了一種混響語音的混響抑制方法及裝置,利用混響時間調整混響抑制模型,使其對混響語音信號的混響抑制的魯棒性得以提高,解決上述存在的技術問題。
第一方面,本發明提供一種混響語音的混響抑制方法,應用于接收語音的終端,所述方法包括:
接收混響語音時域信號,將所述混響語音時域信號轉換到頻域中,并獲取混響語音頻域信號對應的第一幅度譜和相位值;
將所述第一幅度譜輸入編碼器模型,獲得編碼器模型輸出的多個尺度的編碼特征;
利用多個尺度的加權系數對所述多個尺度的編碼特征進行加權求和處理;所述多個尺度的加權系數根據所述混響語音時域信號對應的混響時間,利用混響時間注意力模型獲得;
將處理后的編碼特征輸入解碼器模型,獲得解碼器模型輸出的第二幅度譜;
根據所述相位值和所述第二幅度譜,獲得所述混響語音時域信號對應的直達語音時域信號;
其中,所述編碼器模型由多個并行的卷積神經網絡模型組成,所述混響時間注意力模型由全連接神經網絡模型組成,所述解碼器模型由轉置卷積卷積神經網絡組成。
由上,利用混響語音時域信號對應的混響時間對獲得的多個尺度的編碼特征進行特征選擇,采用混響時間注意力機制提高了各個模型對不同環境的泛化能力,使得本發明的混響抑制方法可以適應不同的環境,提供了混響抑制的魯棒性。
在一種可能的實施方式中,所述將所述混響語音時域信號轉換到頻域中包括:
對所述混響語音時域信號進行分幀處理,以及對分幀處理后的信號進行加窗處理;
對加窗處理后的信號做傅里葉變換中,獲得混響語音頻域信號。
在一種可能的實施方式中,所述對所述混響語音的時域信號進行分幀處理包括:
以固定的幀長度在所述混響語音時域信號中截取信號;
當所述混響語音時域信號中剩余信號的長度小于所述幀長度時,對所述混響語音時域信號中剩余信號做補零處理。
在一種可能的實施方式中,所述對分幀處理后的信號進行加窗處理包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011521566.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高初粘力環氧膠膜及其制備方法
- 下一篇:一種電機制動器蓋板高效噴涂工藝





