[發(fā)明專利]一種跳變連接深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010012435.3 | 申請(qǐng)日: | 2020-01-07 |
| 公開(kāi)(公告)號(hào): | CN111192598A | 公開(kāi)(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計(jì))人: | 蘭朝鳳;劉春東;蘇崎木;郭思誠(chéng);陳小艷 | 申請(qǐng)(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號(hào): | G10L21/0208 | 分類號(hào): | G10L21/0208;G10L25/30;G10L25/03;G10L25/24;G10L25/18;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市文洋專利代理事務(wù)所(普通合伙) 23210 | 代理人: | 何強(qiáng) |
| 地址: | 150080 黑龍*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 連接 深度 神經(jīng)網(wǎng)絡(luò) 語(yǔ)音 增強(qiáng) 方法 | ||
1.一種跳變連接深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,其特征在于,所述方法包括:
S1、根據(jù)時(shí)域語(yǔ)音信號(hào),提取時(shí)頻域特征;
S2、確定訓(xùn)練目標(biāo),并將訓(xùn)練目標(biāo)和提取的時(shí)頻域特征送入到Skip-DNN模型中,進(jìn)行訓(xùn)練,得到Skip-DNN語(yǔ)音增強(qiáng)模型;
所述Skip-DNN模型包括輸入層、隱藏層和輸出層,輸入層、隱藏層和輸出層之間采用跳變連接;第一模塊包括兩個(gè)隱藏層,第二個(gè)隱藏層節(jié)點(diǎn)數(shù)與輸入層的節(jié)點(diǎn)數(shù)相同;
第二模塊、第三模塊與第一模塊結(jié)構(gòu)相同,第四模塊僅有一層隱藏層,該隱藏層的節(jié)點(diǎn)數(shù)與輸入層的節(jié)點(diǎn)數(shù)相同;
S3、提取帶噪語(yǔ)音特征,將其輸入到Skip-DNN語(yǔ)音增強(qiáng)模型中,估計(jì)目標(biāo)語(yǔ)音;
S4、將目標(biāo)語(yǔ)音與帶噪語(yǔ)音合成,得到增強(qiáng)的純凈語(yǔ)音信號(hào)。
2.根據(jù)權(quán)利要求1所述的語(yǔ)音增強(qiáng)方法,其特征在于,所述第一模塊至第三模塊均還包括丟棄算法Dropout層,在第一模塊中Dropout層設(shè)置在兩個(gè)隱藏層之間,Dropout層在Skip-DNN模型的前向傳播過(guò)程中按照比例讓隱藏層的節(jié)點(diǎn)值為0。
3.根據(jù)權(quán)利要求1或2所述的語(yǔ)音增強(qiáng)方法,其特征在于,所述S1和S3中提取的特征為耳蝸圖。
4.根據(jù)權(quán)利要求2所述的語(yǔ)音增強(qiáng)方法,其特征在于,所述第一模塊的第一個(gè)隱藏層獲得的估計(jì)值為a(1):
其中,n表示第一個(gè)隱藏層節(jié)點(diǎn)數(shù),m表示輸入的節(jié)點(diǎn)數(shù),max(x,0)表示非線性激活函數(shù)ReLU,[y1,…,ym]表示輸入m維的帶噪語(yǔ)音信號(hào),為第一個(gè)隱藏層的權(quán)重,[b1,…,bn]為第一個(gè)隱藏層的偏置;
所述第一模塊的第二個(gè)隱藏層獲得的估計(jì)值為a(2):
其中,為第二個(gè)隱藏層的權(quán)重,[b1,…,bn]為第二個(gè)隱藏層的偏置;
第一模塊輸出的估計(jì)值為:
。
5.根據(jù)權(quán)利要求2所述的語(yǔ)音增強(qiáng)方法,其特征在于,所述S2中,訓(xùn)練目標(biāo)為時(shí)頻掩蔽IRM,IRM∈[0,1],表示純凈語(yǔ)音能量在混合語(yǔ)音能量中所占的比重,IRM為:
其中,|S(t,f)|2表示在時(shí)頻域中純凈語(yǔ)音的能量,|N(t,f)|2表示噪音的能量,β為尺度因子,t表示時(shí)間,f表示幅值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012435.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲(chǔ)介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





