[發(fā)明專利]語音增強(qiáng)模型的訓(xùn)練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201911337710.2 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN110956957B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 趙飛;黃厚軍;錢彥旻 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L17/00;G10L17/06;G10L17/18;G10L21/02;G10L21/0208;G10L21/0216;G10L25/18;G10L25/24;G10L25/30 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 增強(qiáng) 模型 訓(xùn)練 方法 系統(tǒng) | ||
1.一種語音增強(qiáng)模型的訓(xùn)練方法,包括:
接收純凈語音以及與所述純凈語音對應(yīng)的帶噪語音,其中,所述帶噪語音的噪聲包括:噪聲語音和遠(yuǎn)場語音;
分別提取所述純凈語音的第一音頻譜特征和所述帶噪語音的第二音頻譜特征;
對所述帶噪語音的第二音頻譜特征進(jìn)行壓縮以生成第一深度語音特征,具體包括,通過卷積神經(jīng)網(wǎng)絡(luò)對所述第二音頻譜特征進(jìn)行壓縮,生成第一深度語音特征;
對所述第一深度語音特征進(jìn)行去噪,得到去噪后的第二深度語音特征,具體包括,通過長短時(shí)記憶網(wǎng)絡(luò)對所述第一深度語音特征進(jìn)行逐幀去噪,得到去噪后的第二深度語音特征;
對所述第二深度語音特征進(jìn)行音頻譜恢復(fù),得到所述帶噪語音的第三音頻譜特征,具體包括,基于反卷積神經(jīng)網(wǎng)絡(luò)對所述第二深度語音特征進(jìn)行音頻譜恢復(fù),用于避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練的梯度消失;
確定所述純凈語音的第一音頻譜特征和所述帶噪語音的第三音頻譜特征的特征均方誤差,基于所述均方誤差訓(xùn)練所述語音增強(qiáng)模型,直至所述特征均方誤差符合預(yù)設(shè)閾值,確定卷積-長短時(shí)記憶網(wǎng)絡(luò)-反卷積結(jié)構(gòu)的語音增強(qiáng)模型,其中,所述語音增強(qiáng)模型輸入為帶噪語音,將處理后的帶噪語音作為輸出。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述卷積神經(jīng)網(wǎng)絡(luò)為四層卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)的卷積層通道數(shù)分別為8,16,32,64;
所述反卷積神經(jīng)網(wǎng)絡(luò)為四層反卷積神經(jīng)網(wǎng)絡(luò),所述反卷積神經(jīng)網(wǎng)絡(luò)的反卷積層通道數(shù)分別為32,16,8,1。
3.一種聲紋識別方法,包括:
接收帶噪語音信號,提取所述帶噪語音信號中的音頻譜特征;
將所述音頻譜特征輸入至權(quán)利要求1或2所述的語音增強(qiáng)模型,得到去噪后的純凈音頻的音頻譜特征;
將所述純凈音頻的音頻譜特征輸入至聲紋識別網(wǎng)絡(luò),確定出純凈音頻的特征向量,基于所述純凈音頻的特征向量確定出識別結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述確定出純凈音頻的特征向量包括:
通過AM損失函數(shù)確定出純凈音頻的特征向量,用于區(qū)分特征向量中的不同說話人。
5.根據(jù)權(quán)利要求3所述的方法,其中,所述接收帶噪語音信號,提取所述帶噪語音信號中的音頻譜特征包括:
通過語音活性檢測獲取所述帶噪語音信號中的人聲信號,提取所述帶噪語音信號中的人聲信號的音頻譜特征。
6.一種語音增強(qiáng)模型的訓(xùn)練系統(tǒng),包括:
語音接收程序模塊,用于接收純凈語音以及與所述純凈語音對應(yīng)的帶噪語音,其中,所述帶噪語音的噪聲包括:噪聲語音和遠(yuǎn)場語音;
音頻譜特征提取程序模塊,用于分別提取所述純凈語音的第一音頻譜特征和所述帶噪語音的第二音頻譜特征;
深度語音特征確定程序模塊,用于對所述帶噪語音的第二音頻譜特征進(jìn)行壓縮以生成第一深度語音特征,具體包括,通過卷積神經(jīng)網(wǎng)絡(luò)對所述第二音頻譜特征進(jìn)行壓縮,生成第一深度語音特征;
去噪程序模塊,用于對所述第一深度語音特征進(jìn)行去噪,得到去噪后的第二深度語音特征,具體包括,通過長短時(shí)記憶網(wǎng)絡(luò)對所述第一深度語音特征進(jìn)行逐幀去噪,得到去噪后的第二深度語音特征;
音頻譜恢復(fù)程序模塊,用于對所述第二深度語音特征進(jìn)行音頻譜恢復(fù),得到所述帶噪語音的第三音頻譜特征,具體包括,基于反卷積神經(jīng)網(wǎng)絡(luò)對所述第二深度語音特征進(jìn)行音頻譜恢復(fù),用于避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練的梯度消失;
模型訓(xùn)練程序模塊,用于確定所述純凈語音的第一音頻譜特征和所述帶噪語音的第三音頻譜特征的特征均方誤差,基于所述均方誤差訓(xùn)練所述語音增強(qiáng)模型,直至所述特征均方誤差符合預(yù)設(shè)閾值,確定卷積-長短時(shí)記憶網(wǎng)絡(luò)-反卷積結(jié)構(gòu)的語音增強(qiáng)模型,其中,所述語音增強(qiáng)模型輸入為帶噪語音,將處理后的帶噪語音作為輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911337710.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





