[發(fā)明專利]頻帶增益模型的訓(xùn)練方法及用于車載場景的語音降噪方法在審
| 申請?zhí)枺?/td> | 202110985541.4 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113782011A | 公開(公告)日: | 2021-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 姜彥吉;張勝;宋湘鈺;范佳亮;彭博 | 申請(專利權(quán))人: | 清華大學(xué)蘇州汽車研究院(相城) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L15/20;G10L21/0208;G10L25/24;G10L25/30;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州創(chuàng)元專利商標(biāo)事務(wù)所有限公司 32103 | 代理人: | 喬峰 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 頻帶 增益 模型 訓(xùn)練 方法 用于 車載 場景 語音 | ||
本發(fā)明公開了頻帶增益模型的訓(xùn)練方法及用于車載場景的語音降噪方法,訓(xùn)練方法包括以下步驟:將純語音信號和純噪聲信號分別分幀后,并逐幀按照頻率進(jìn)行分帶,得到純語音頻帶和純噪聲頻帶,將純語音信號和純噪聲信號混合后,對其進(jìn)行分幀處理,并逐幀按照相應(yīng)頻率進(jìn)行分帶,得到帶噪語音頻帶,根據(jù)各純噪聲、純語音、帶噪語音頻帶的能量,以得到純噪聲頻帶相應(yīng)的對數(shù)譜、增益期望值和特征值;將特征值輸入頻帶增益模型,以輸出各帶噪語音頻帶對應(yīng)的增益值,并利用增益期望值以及對數(shù)譜作為標(biāo)簽進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,以實(shí)現(xiàn)對所述頻帶增益模型的參數(shù)優(yōu)化。本發(fā)明提供的訓(xùn)練方法及語音降噪方法對帶噪語音進(jìn)行降噪的同時保證語音識別系統(tǒng)的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及語音降噪技術(shù)領(lǐng)域,特別涉及一種頻帶增益模型的訓(xùn)練方法及用于車載場景的語音降噪方法。
背景技術(shù)
隨著汽車智能化程度的提升,車載語音系統(tǒng)成為汽車座艙內(nèi)的標(biāo)準(zhǔn)配置,車載語音系統(tǒng)有兩個需求,(1)行車時保證清晰的語音通話質(zhì)量;(2)行車時保證穩(wěn)定的語音識別系統(tǒng)性能。由于行車過程中發(fā)動機(jī)噪聲、風(fēng)噪、路噪和空調(diào)噪聲等的影響,語音信號受到復(fù)雜環(huán)境的干擾,嚴(yán)重影響語音系統(tǒng)的表現(xiàn),影響用戶的使用體驗(yàn)。車載場景中的噪聲已經(jīng)成為一個必須克服的問題。
語音降噪的常用方法及特點(diǎn)可以歸納如下:
(1)傳統(tǒng)的基于信號處理的算法,如譜減法,維納濾波法等,假定語音服從一定的分布,而噪聲是平穩(wěn)或者緩慢變化的,估計(jì)噪聲的功率譜或者理想維納濾波器,算法簡單,實(shí)時性好,滿足條件下能取得較好的分離性能,但實(shí)際的場景環(huán)境中,難以滿足假設(shè)條件,降噪性能會打折扣。
(2)基于分解計(jì)算的方法,如非負(fù)矩陣分解,假設(shè)聲音信號的頻譜具有低秩結(jié)構(gòu),因此可以采用一個數(shù)量比較小的基來進(jìn)行表示,能夠挖掘語音信號中的基本譜模式,但這種計(jì)算方法是線性模型結(jié)構(gòu),難以捕捉語音信號的非線性特性,而且計(jì)算代價較大,復(fù)雜度高,很難滿足實(shí)時性要求。
(3)基于規(guī)則的算法,如根據(jù)聽覺場景分析的研究中發(fā)現(xiàn)的一些規(guī)則或機(jī)制對噪聲場景下的語音增強(qiáng)問題進(jìn)行建模,這種方法的以規(guī)則為支撐,模型的可解釋性較強(qiáng),但因?yàn)槁犛X研究一般采用較為簡單的刺激作為輸入,得到的規(guī)律不一定適用于復(fù)雜聽覺環(huán)境,其模型目標(biāo)是重現(xiàn)實(shí)驗(yàn)范式中的結(jié)果,難以應(yīng)用到實(shí)際的問題中,另外大部分的聽覺模型嚴(yán)重依賴于分組線索,尤其是基音提取的準(zhǔn)確性,而這在復(fù)雜的聽覺環(huán)境下又難以保證,因此語音降噪的效果不夠理想。
(4)基于深度學(xué)習(xí)模型的降噪算法,依靠計(jì)算機(jī)強(qiáng)大算力,利用深度神經(jīng)網(wǎng)絡(luò)的高度非線性對語音進(jìn)行建模,在龐大數(shù)據(jù)量的驅(qū)動下,能獲得較好的降噪表現(xiàn),但模型對計(jì)算資源要求高,實(shí)時性差。
另外由于語音降噪和語音識別的優(yōu)化目標(biāo)不同,很多降噪算法處理后的語音數(shù)據(jù)會受損,導(dǎo)致語音識別系統(tǒng)的準(zhǔn)確率下降,因此降噪算法的設(shè)計(jì)需要兼顧語音識別算法的模型設(shè)計(jì)。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)存在的不足,本發(fā)明提供了頻帶增益模型的訓(xùn)練方法及用于車載場景的語音降噪方法,所述技術(shù)方案如下:
一方面,本發(fā)明提供了一種頻帶增益模型的訓(xùn)練方法,所述頻帶增益模型基于神經(jīng)網(wǎng)絡(luò)模型,采用SRU架構(gòu),所述頻帶增益模型能夠依據(jù)帶噪語音信號的特征值對其多個頻段的信號進(jìn)行降噪增益;
所述訓(xùn)練方法包括以下步驟:
S1、將純語音信號和純噪聲信號分別分幀后,并逐幀按照頻率進(jìn)行分帶,得到n個純語音頻帶和n個純噪聲頻帶,計(jì)算各純語音頻帶和各純噪聲頻帶的能量;將所述純語音信號和純噪聲信號混合后,得到帶噪語音信號,對其進(jìn)行分幀處理,并逐幀按照相應(yīng)頻率進(jìn)行分帶,得到n個帶噪語音頻帶,計(jì)算各帶噪語音頻帶的能量;
根據(jù)各純噪聲頻帶的能量,以得到所述純噪聲頻帶相應(yīng)的n個對數(shù)譜;
根據(jù)所述純語音頻帶的能量與相應(yīng)頻段的所述帶噪語音頻帶的能量的比值,以得到n個增益期望值;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué)蘇州汽車研究院(相城),未經(jīng)清華大學(xué)蘇州汽車研究院(相城)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110985541.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





