[發明專利]基于生成對抗網絡的深度特征的語音去混響方法有效
| 申請號: | 201910140461.1 | 申請日: | 2019-02-23 |
| 公開(公告)號: | CN109887489B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 王龍標;李楠;黨建武 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/08;G10L15/14;G10L15/16;G10L15/26;G10L19/04;G10L21/0208;G10L25/24 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 生成 對抗 網絡 深度 特征 語音 混響 方法 | ||
1.基于生成對抗網絡的深度特征的語音去混響方法,其特征在于,該方法主要步驟如下:
1)對語音進行加權預測誤差WPE信號預處理:
WPE估計和去除單通道語音中的晚期混響,混響語音信號Y分解為干凈語音成分D和混響成分L,
Y(t,f)=D(t,f)+L(t,f)
L通過先前若干點的Y加權確定,G表示權重系數;
WPE算法的核心問題是確定G,然后估計出混響消除后的語音;
2)數據的特征提取:對語音數據進行MFCC特征提取以及對干凈語音進行針對音素的瓶頸特征BNF提取;
3)構建生成對抗網絡,將含混響語音的MFCC特征通過生成對抗網絡映射到干凈語音的深度特征;
4)通過Kaldi工具箱,使用傳統的GMM-HMM進行強制對齊,然后利用深度神經網絡DNNs進行聲學模型的訓練以及解碼;
所述步驟3)中生成對抗網絡,生成器和判別器的結構具體為:
(1)生成器中,將所提取的MFCC特征作為神經網絡的輸入,通過一個全連接的輸入層,將含混響語音特征映射到一個多維的線性空間,然后設置三層全連接隱層,每個隱層的神經元的個數為1024,最后通過一個輸出層輸出一個28維的BNF和MFCC的融合特征;
(2)對于判別器,同樣使用含有相同結構的神經網絡作為神經網絡框架,在此部分中,將生成器所生成的特征和干凈語音的特征均輸入到判別器當中,輸出為一個一維的在0到1之間的數,以此來判斷是輸入的特征是生成器所生成的還是干凈語音特征;
在此生成對抗網絡結構中所使用的目標函數如下所示:
其中,x為干凈語音,xc為含有混響語音,
G(xc)為生成器所生成的特征,
D(G(xc))為生成器所生成的特征然后輸入到判別器所產生的0到1之間的數值,
D(x)為干凈語音信號輸入到判別器所產生的0到1之間的數,為生成器所生成的特征和干凈語音特征的均方誤差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910140461.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多語言信息收集存儲系統及其實現方法
- 下一篇:用于識別語音的方法和裝置





