[發明專利]一種基于MEE優化準則的深度神經網絡語音增強模型在審
| 申請號: | 201711384226.6 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN108133702A | 公開(公告)日: | 2018-06-08 |
| 發明(設計)人: | 周翊;黃張翼;舒曉峰;孫旭光 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L21/0208;G10L25/03;G10L25/30;G06N3/08 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音增強 純凈語音 混合語音 神經網絡 特征提取 訓練階段 優化準則 降噪 語音 非平穩噪聲 人工智能 解碼 波形重構 實際問題 網絡輸出 訓練模型 語音文件 普適性 輸出層 輸入層 信噪比 構建 隱層 相加 噪聲 網絡 | ||
1.一種基于MEE優化準則的深度神經網絡語音增強模型,其特征在于:該模型包括輸入層、隱層和輸出層;所述隱層層數為3,節點數為1024;
該模型分為訓練階段和增強階段;
所述訓練階段:將純凈語音和多種類噪聲兩兩相加構建不同信噪比下的混合帶噪語音,對混合語音進行特征提取,輸入到深度神經網絡(Deep Neural Network,,DNN)進行訓練;
所述增強階段:對待測混合語音進行相同特征提取,輸入到已經訓練好的DNN進行解碼,DNN輸出對純凈語音的特征的估計,再進行波形重構,得到降噪后的語音文件。
2.如權利要求1所述的一種基于MEE優化準則的深度神經網絡語音增強模型,其特征在于:在DNN訓練階段,用誤差逆傳播(error BackPropagation,BP)算法更新DNN權值;輸入通過各個隱層獲得的激勵響應,隱層中上一層的輸出是下一層的輸入,直到最后一層獲得預測值;預測值和參考信號的差異需要反向傳播的錯誤,根據這個錯誤來調節DNN的各個權值和偏置。
3.如權利要求1所述的一種基于MEE優化準則的深度神經網絡語音增強模型,其特征在于:定義最小誤差熵MEE代價函數的最后實際表達為:
其中,n表示隱層的節點數;e(i)和e(u)分別表示第i個神經元和第u個神經元的錯誤;錯誤e=target-output,表示經DNN訓練后輸出的對純凈語音對數功率譜的估計值與參考值的差異;h表示核寬度,即平滑參數;高斯核函數K表示為:
為了使用BP算法,需要得到梯度Δω的解析表達式;因為(1)式函數是單調遞增的,最小化它的操作數,操作數表示為:
其中,yk=output;
當i=k時,的導數為:
當u=k時,的導數為:
綜合(3)、(4)、(5)式可得:
化簡整理(6)式可得:
其中,Wkj表示第j層第k個神經元的權值,net(j)表示為第j層第k個神經元的輸入,f(·)是神經元的激活函數,f′(·)代表f(·)的導數;
綜上,給定學習率η,用MEE作為代價函數的BP算法中的權值,更新(7)式可得:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711384226.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機器人語音交互的系統與方法
- 下一篇:一種手機控制系統





