[發(fā)明專利]一種面向語音識別的語音增強方法有效
| 申請?zhí)枺?/td> | 201911180882.3 | 申請日: | 2019-11-27 |
| 公開(公告)號: | CN110970044B | 公開(公告)日: | 2022-06-07 |
| 發(fā)明(設計)人: | 楊玉紅;馮佳倩;蔡林君;涂衛(wèi)平;艾浩軍;高戈 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L25/30;G10L15/06;G10L15/22 |
| 代理公司: | 武漢科皓知識產(chǎn)權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 語音 識別 增強 方法 | ||
本發(fā)明公開了一種面向語音識別的語音增強方法,包括:步驟1,利用近端麥克風和遠端麥克風錄制得到的語音,對干凈語音進行估計;步驟2,將步驟1中得到的估計語音作為參考語音信號,計算參考語音和待測降噪語音的包絡相關系數(shù),構造和語音識別相關的模型優(yōu)化目標函數(shù);步驟3,構建語音增強的深度神經(jīng)網(wǎng)絡模型,訓練目標為估計語音,模型優(yōu)化目標函數(shù)由步驟2得到;根據(jù)優(yōu)化結果實現(xiàn)語音增強。本發(fā)明方法利用估計語音提高語音識別性能,并保證了人耳聽覺感知質(zhì)量,更適用于面向語音識別的語音增強。
技術領域
本發(fā)明屬于聲學技術領域,涉及一種語音增強方法,尤其涉及一種面向語音識別的語音增強方法。
背景技術
隨著深度學習在圖像領域的迅速發(fā)展,人們也開始在語音信號處理中廣泛地應用深度神經(jīng)網(wǎng)絡,特別是基于神經(jīng)網(wǎng)絡的單通道語音增強。基于神經(jīng)網(wǎng)絡的語音增強方法充分利用了現(xiàn)有的語音數(shù)據(jù),學習到了語音和噪聲的統(tǒng)計特性,其對于復雜噪聲環(huán)境下的魯棒性更好,因而相比傳統(tǒng)方法能得到更優(yōu)的增強性能。
基于深度學習的語音增強將有噪聲的語音映射為干凈的語音。在訓練階段,常采用目標函數(shù)對模型參數(shù)進行優(yōu)化。但是,改進后的語音模型優(yōu)化準則與評價準則存在不一致之處。例如,在測量語言可懂度時,大多數(shù)評價度量是基于短時間客觀可懂度(STOI)進行測量,而模型的優(yōu)化大多是估計語音和干凈語音的均方誤差(MSE)。MSE通常在線性頻率范圍內(nèi)定義,而人的聽覺感知則遵循Mel-頻率尺度。于是,2018年Szu-Wei Fu通過將STOI集成到模型優(yōu)化中,提高了增強語音的可懂度。但在語音識別的實驗中,其性能并沒有提高。
在2017年,E Vincent等人在實驗中指出,影響語音識別性能的可能原因是語音增強的目標。于是,E Vincent等人改進了語音增強的目標信號,不改變語音增強模型,結果發(fā)現(xiàn)確實提高了語音識別性能。但此時使用的模型優(yōu)化目標函數(shù)仍然是MSE,沒有與人耳聽覺感知標準匹配。
為了在保證人耳聽覺感知質(zhì)量的情況下,又能同時提高語音識別性能,本發(fā)明提出了一種面向語音識別的語音增強。
發(fā)明內(nèi)容
本發(fā)明在保證與人耳聽覺感知標準高度匹配的情況下,又能提高語音識別性能,提出了一種面向語音識別的語音增強。
本發(fā)明所采用的技術方案是一種面向語音識別的語音增強方法,包括以下步驟:
步驟1,利用近端麥克風和遠端麥克風錄制得到的語音,對干凈語音進行估計;
步驟2,將步驟1中得到的估計語音作為參考語音信號,計算參考語音和待測降噪語音的包絡相關系數(shù),構造和語音識別相關的模型優(yōu)化目標函數(shù);
步驟3,構建語音增強的深度神經(jīng)網(wǎng)絡模型,訓練目標為估計語音,模型優(yōu)化目標函數(shù)由步驟2得到;根據(jù)優(yōu)化結果實現(xiàn)語音增強。
而且,步驟1的實現(xiàn)包括以下子步驟,
步驟1.1,對近端和遠端麥克風錄制的帶噪語音分別做分幀、加窗和短時傅里葉變換,得到C(n,f)和Xi(n,f),其中n為幀索引,f為頻點索引,i為遠端陣列麥克風的索引;
步驟1.2,估計干凈語音為Si(n,f),計算每個時頻單元的殘差Ri(n,f),公式如下,
Ri(n,f)=Xi(n,f)-Si(n,f)
其中,設定幀搜索范圍l,Lmin為向前搜索參數(shù),Lmax為向后搜索參數(shù),Gi(l,f)表示從近端麥克風信號到遠端麥克風的傳輸函數(shù),由最小化總殘差推出,公式如下,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經(jīng)武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911180882.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





