[發明專利]相位敏感的門控多尺度空洞卷積網絡語音增強方法與系統在審
| 申請號: | 202011332442.8 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112309411A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 劉明;周彥兵;唐飛;周小明;趙學華 | 申請(專利權)人: | 深圳信息職業技術學院 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相位 敏感 門控 尺度 空洞 卷積 網絡 語音 增強 方法 系統 | ||
本發明提供了一種相位敏感的門控多尺度空洞卷積網絡語音增強方法,利用神經網絡模型構建語音信號復數頻譜之間的映射關系,將經過時頻分析處理后的帶噪語音實虛部頻譜進行映射,獲得增強后的實虛部頻譜,并恢復成增強的時域語音信號。本發明還提供了一種相位敏感的門控多尺度空洞卷積網絡語音增強系統。本發明的有益效果是:提高了語音增強的效果,保證了增強語音具備良好的語音可懂度,較好的避免了語音失真問題。
技術領域
本發明涉及語音增強方法,尤其涉及一種相位敏感的門控多尺度空洞卷積網絡語音增強方法與系統。
背景技術
早期的聽覺實驗研究表明,當信噪比高于6dB時,相位失真對語音質量和可懂度的影響很小,因此目前大多數單通道語音增強方法主要還是在語音信號的幅度域進行降噪處理,并直接利用帶噪相位進行語音信號的重構。但是,當我們的語音產品面對的聲學場景更加惡劣時,例如信噪比低于0dB,或者局部時間內噪聲信號完全淹沒語音信號的情況等,如果只對語音信號的幅度進行增強,并不能保證增強語音具備良好的語音可懂度,甚至還會出現一些聲音顫抖、嗡嗡聲等語音失真問題。
發明內容
為了解決現有技術中的問題,本發明提供了一種相位敏感的門控多尺度空洞卷積網絡語音增強方法與系統。
本發明提供了一種相位敏感的門控多尺度空洞卷積網絡語音增強方法,利用神經網絡模型構建語音信號復數頻譜之間的映射關系,將經過時頻分析處理后的帶噪語音實虛部頻譜進行映射,獲得增強后的實虛部頻譜,并恢復成增強的時域語音信號。
作為本發明的進一步改進,首先,將帶噪語音信號進行分幀加窗處理,然后進行短時傅里葉變換,得到帶噪語音信號的復數譜,分離實虛部,并只取有效值部分,便得到了兩組輸入特征:實部特征和虛部特征。
作為本發明的進一步改進,隨后將兩組輸入特征送入門控多尺度空洞卷積網絡模型。
作為本發明的進一步改進,所述門控多尺度空洞卷積網絡模型的處理流程包括:首先,由門控編碼模塊進行門控編碼操作,來獲取高緯度非線性的特征表示形式,緊接著利用多尺度特征分析模塊分別對編碼的實部特征和虛部特征表示進行時序特征分析,并由門控解碼模塊分別進行門控解碼操作,得到增強后的實虛部頻譜。
作為本發明的進一步改進,將增強后的實虛部頻譜進行反傅里葉變換,再重疊相加,最終得到增強語音信號。
作為本發明的進一步改進,所述門控編碼模塊由至少兩個門控線性編碼單元堆疊而成,每個門控線性編碼單元采用1×3的卷積核,以步長為1 ×2的方式進行二維卷積操作。
作為本發明的進一步改進,每個門控線性編碼單元的輸出都進行指數線性激活,來進行特征的非線性變換。
作為本發明的進一步改進,所述多尺度特征分析模塊的輸入包括兩組特征:(1)原始的帶噪語音的實或虛部譜;(2)所述門控編碼模塊輸出的實或虛部特征。
作為本發明的進一步改進,所述多尺度特征分析模塊由至少兩個多尺度分析單元堆疊而成,每個多尺度分析單元將兩組特征張量進行拼接操作,拼接之前需要對兩組張量進行重塑操作,使其變成一個三維的張量,形狀為[句子數,句子長度,322]。接下來,將拼接的特征張量進行子帶分解,這里一共分成8個子帶,前7個子帶的張量形狀為[句子數,句子長度,40],最后一個子帶的形狀為[句子數,句子長度,42],將當前子帶的輸入和其鄰近的子帶卷積輸出相拼接,然后再進行一維的空洞卷積操作,在每個子帶卷積之后,采用指數線性激活,經過多個多尺度分析單元之后,利用一層1024維的全連接層對多尺度分析后的特征進行拓展,并將輸出的特征張量再重塑成4維的張量形式[句子數,句子長度,4,256],緊接著,將兩組重塑后的特征張量分別送進門控解碼模塊進行解碼操作。
本發明還提供了一種相位敏感的門控多尺度空洞卷積網絡語音增強系統,包括可讀存儲介質,所述可讀存儲介質中存儲有執行指令,所述執行指令被處理器執行時用于實現如上述中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳信息職業技術學院,未經深圳信息職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011332442.8/2.html,轉載請聲明來源鉆瓜專利網。





