[發(fā)明專利]一種基于深度學(xué)習(xí)的雙耳語音增強(qiáng)方法有效
| 申請?zhí)枺?/td> | 201811646317.7 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109448751B | 公開(公告)日: | 2021-03-23 |
| 發(fā)明(設(shè)計)人: | 李軍鋒;孫興偉;夏日升;顏永紅 | 申請(專利權(quán))人: | 中國科學(xué)院聲學(xué)研究所 |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L25/30 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 耳語 增強(qiáng) 方法 | ||
1.一種基于深度學(xué)習(xí)的雙耳語音增強(qiáng)方法,其特征在于,包括步驟:
對左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀、加窗和傅里葉變換,得到左通道帶噪語音頻域信號和右通道帶噪語音頻域信號;所述左通道帶噪語音信號中包含待增強(qiáng)的左通道目標(biāo)語音信號,所述右通道帶噪語音信號中包含待增強(qiáng)的右通道目標(biāo)語音信號;
將所述左通道帶噪語音頻域信號和右通道帶噪語音頻域信號的幅值進(jìn)行組合得到單通道復(fù)數(shù)特征;
利用所述左通道帶噪語音頻域信號和左通道目標(biāo)語音頻域信號理論值計算得到左通道目標(biāo)語音理想復(fù)數(shù)掩蔽;利用所述右通道帶噪語音頻域信號和右通道目標(biāo)語音頻域信號理論值計算得到右通道目標(biāo)語音理想復(fù)數(shù)掩蔽;
將左通道目標(biāo)語音理想復(fù)數(shù)掩蔽和右通道目標(biāo)語音理想復(fù)數(shù)掩蔽進(jìn)行組合構(gòu)成目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值;
使用所述單通道復(fù)數(shù)特征和目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值對復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到雙耳語音增強(qiáng)模型;
將所述單通道復(fù)數(shù)特征作為所述雙耳語音增強(qiáng)模型的輸入,輸出目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值,利用所述目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值分別對左通道帶噪語音頻域信號和右通道帶噪語音頻域信號進(jìn)行增強(qiáng),得到左通道目標(biāo)語音頻域信號估計值和右通道目標(biāo)語音頻域信號估計值;
對所述左通道目標(biāo)語音頻域信號估計值和右通道目標(biāo)語音頻域信號估計值分別進(jìn)行逆傅里葉變換,得到左通道目標(biāo)語音時域信號和右通道目標(biāo)語音時域信號。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀、加窗和傅里葉變換的步驟,具體為,
對所述左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀和加窗處理,取1024個采樣點(diǎn)作為一幀信號,若長度不足則先補(bǔ)零到1024點(diǎn);然后對每一幀信號進(jìn)行加窗,加窗函數(shù)采用漢明窗;最后對每一幀信號進(jìn)行傅里葉變換。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述單通道復(fù)數(shù)特征為:
XC=|XL|+j|XR|
其中,j為復(fù)數(shù)虛部單位,|XL|為左通道帶噪語音頻域信號的幅值,|XR|為右通道帶噪語音頻域信號的幅值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,
所述左通道目標(biāo)語音理想復(fù)數(shù)掩蔽為:
其中,j為復(fù)數(shù)虛部單位,XL為復(fù)數(shù),為左通道帶噪語音頻域信號,SL為復(fù)數(shù),為左通道目標(biāo)語音頻域信號理論值,r和i表示取復(fù)數(shù)的實(shí)部和虛部;
所述右通道目標(biāo)語音理想復(fù)數(shù)掩蔽為:
其中,j為復(fù)數(shù)虛部單位,XR為復(fù)數(shù),為右通道帶噪語音頻域信號,SR為復(fù)數(shù),為右通道目標(biāo)語音頻域信號理論值,r和i表示取復(fù)數(shù)的實(shí)部和虛部。
5.根據(jù)權(quán)利要求1或4任一權(quán)利要求所述的方法,其特征在于,所述目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值為:
MC=ML+jMR
其中,j為復(fù)數(shù)虛部單位,ML為左通道目標(biāo)語音理想復(fù)數(shù)掩蔽,MR為右通道目標(biāo)語音理想復(fù)數(shù)掩蔽。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述使用所述單通道復(fù)數(shù)特征和目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值對復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到雙耳語音增強(qiáng)模型的步驟,具體為,
所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)為一個4層的全連接神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中每層有1024個隱層復(fù)數(shù)節(jié)點(diǎn);每個神經(jīng)元的激活函數(shù)使用的是線性修正單元,并且分別作用在復(fù)數(shù)節(jié)點(diǎn)的實(shí)部和虛部上,其表達(dá)式為f(x)=max(0,x);
將所述單通道復(fù)數(shù)特征進(jìn)行前后幀擴(kuò)展,得到單通道復(fù)數(shù)擴(kuò)展特征,并作為所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)的輸入,輸出目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值,將目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值作為所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo),通過迭代不斷使目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值與目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值的均方誤差減小。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所,未經(jīng)中國科學(xué)院聲學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811646317.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 一種將耳語轉(zhuǎn)換為正常語音的裝置和方法
- 基于聲道參數(shù)的漢語耳語音聲調(diào)識別方法
- 基于徑向基神經(jīng)網(wǎng)絡(luò)的耳語音轉(zhuǎn)換為正常語音的方法
- 一種基于Gabor時頻分析的耳語增強(qiáng)方法
- 一種漢語耳語音的基頻估計方法
- 一種耳語音恢復(fù)方法、裝置、設(shè)備及可讀存儲介質(zhì)
- 基于改進(jìn)的Mel頻率尺度和相位修正的耳語音增強(qiáng)算法
- 改進(jìn)的Mel頻率尺度與耳語音共振峰結(jié)合的耳語音增強(qiáng)算法
- 語音增強(qiáng)方法、裝置、存儲介質(zhì)及電子設(shè)備
- 群呼方法、計算機(jī)裝置及計算機(jī)可讀記錄介質(zhì)





