[發(fā)明專利]一種基于深度學(xué)習(xí)的雙耳語音增強(qiáng)方法有效

申請?zhí)枺?/td>	201811646317.7	申請日：	2018-12-29
公開（公告）號：	CN109448751B	公開（公告）日：	2021-03-23
發(fā)明（設(shè)計）人：	李軍鋒;孫興偉;夏日升;顏永紅	申請（專利權(quán)）人：	中國科學(xué)院聲學(xué)研究所
主分類號：	G10L21/0232	分類號：	G10L21/0232;G10L25/30
代理公司：	北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309	代理人：	陳霽
地址：	100190 ***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于深度學(xué)習(xí) 耳語增強(qiáng) 方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于深度學(xué)習(xí)的雙耳語音增強(qiáng)方法，其特征在于，包括步驟：

對左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀、加窗和傅里葉變換，得到左通道帶噪語音頻域信號和右通道帶噪語音頻域信號；所述左通道帶噪語音信號中包含待增強(qiáng)的左通道目標(biāo)語音信號，所述右通道帶噪語音信號中包含待增強(qiáng)的右通道目標(biāo)語音信號；

將所述左通道帶噪語音頻域信號和右通道帶噪語音頻域信號的幅值進(jìn)行組合得到單通道復(fù)數(shù)特征；

利用所述左通道帶噪語音頻域信號和左通道目標(biāo)語音頻域信號理論值計算得到左通道目標(biāo)語音理想復(fù)數(shù)掩蔽；利用所述右通道帶噪語音頻域信號和右通道目標(biāo)語音頻域信號理論值計算得到右通道目標(biāo)語音理想復(fù)數(shù)掩蔽；

將左通道目標(biāo)語音理想復(fù)數(shù)掩蔽和右通道目標(biāo)語音理想復(fù)數(shù)掩蔽進(jìn)行組合構(gòu)成目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值；

使用所述單通道復(fù)數(shù)特征和目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值對復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到雙耳語音增強(qiáng)模型；

將所述單通道復(fù)數(shù)特征作為所述雙耳語音增強(qiáng)模型的輸入，輸出目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值，利用所述目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值分別對左通道帶噪語音頻域信號和右通道帶噪語音頻域信號進(jìn)行增強(qiáng)，得到左通道目標(biāo)語音頻域信號估計值和右通道目標(biāo)語音頻域信號估計值；

對所述左通道目標(biāo)語音頻域信號估計值和右通道目標(biāo)語音頻域信號估計值分別進(jìn)行逆傅里葉變換，得到左通道目標(biāo)語音時域信號和右通道目標(biāo)語音時域信號。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述對左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀、加窗和傅里葉變換的步驟，具體為，

對所述左通道帶噪語音信號和右通道帶噪語音信號分別進(jìn)行分幀和加窗處理，取1024個采樣點(diǎn)作為一幀信號，若長度不足則先補(bǔ)零到1024點(diǎn)；然后對每一幀信號進(jìn)行加窗，加窗函數(shù)采用漢明窗；最后對每一幀信號進(jìn)行傅里葉變換。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述單通道復(fù)數(shù)特征為：

X_C＝|X_L|+j|X_R|

其中，j為復(fù)數(shù)虛部單位，|X_L|為左通道帶噪語音頻域信號的幅值，|X_R|為右通道帶噪語音頻域信號的幅值。

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，

所述左通道目標(biāo)語音理想復(fù)數(shù)掩蔽為：

其中，j為復(fù)數(shù)虛部單位，X_L為復(fù)數(shù)，為左通道帶噪語音頻域信號，S_L為復(fù)數(shù)，為左通道目標(biāo)語音頻域信號理論值，r和i表示取復(fù)數(shù)的實(shí)部和虛部；

所述右通道目標(biāo)語音理想復(fù)數(shù)掩蔽為：

其中，j為復(fù)數(shù)虛部單位，X_R為復(fù)數(shù)，為右通道帶噪語音頻域信號，S_R為復(fù)數(shù)，為右通道目標(biāo)語音頻域信號理論值，r和i表示取復(fù)數(shù)的實(shí)部和虛部。

5.根據(jù)權(quán)利要求1或4任一權(quán)利要求所述的方法，其特征在于，所述目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值為：

M_C＝M_L+jM_R

其中，j為復(fù)數(shù)虛部單位，M_L為左通道目標(biāo)語音理想復(fù)數(shù)掩蔽，M_R為右通道目標(biāo)語音理想復(fù)數(shù)掩蔽。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述使用所述單通道復(fù)數(shù)特征和目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值對復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練得到雙耳語音增強(qiáng)模型的步驟，具體為，

所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)為一個4層的全連接神經(jīng)網(wǎng)絡(luò)，網(wǎng)絡(luò)中每層有1024個隱層復(fù)數(shù)節(jié)點(diǎn)；每個神經(jīng)元的激活函數(shù)使用的是線性修正單元，并且分別作用在復(fù)數(shù)節(jié)點(diǎn)的實(shí)部和虛部上，其表達(dá)式為f(x)＝max(0,x)；

將所述單通道復(fù)數(shù)特征進(jìn)行前后幀擴(kuò)展，得到單通道復(fù)數(shù)擴(kuò)展特征，并作為所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)的輸入，輸出目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值，將目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值作為所述復(fù)數(shù)前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)，通過迭代不斷使目標(biāo)語音單通道復(fù)數(shù)掩蔽估計值與目標(biāo)語音單通道復(fù)數(shù)掩蔽理論值的均方誤差減小。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院聲學(xué)研究所，未經(jīng)中國科學(xué)院聲學(xué)研究所許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811646317.7/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L21-00 為了改變語音信號的質(zhì)量或其可識度而處理語音信號，以產(chǎn)生另一種可聽的或非可聽的信號，例如視覺信號或觸覺信號
G10L21-02 .語音增強(qiáng)，例如降低噪聲或消除回聲
G10L21-04 .時間壓縮或擴(kuò)展
G10L21-06 .將語音轉(zhuǎn)換成非可聽表達(dá)形式，例如語音可視化、觸覺輔助的語音處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】