[發明專利]修正線性深度自編碼網絡語音識別方法在審
| 申請號: | 201611195535.4 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106782511A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 黃麗霞;張雪英;孫穎;婁英丹 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 太原倍智知識產權代理事務所(普通合伙)14111 | 代理人: | 戎文華 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 修正 線性 深度 編碼 網絡 語音 識別 方法 | ||
1.一種修正線性深度自編碼網絡語音識別方法,所述方法首先是采用修正線性單元作為激活函數替換傳統的Sigmoid函數對深度自編碼網絡進行訓練,其次是引入L2正則化來優化深度模型訓練過程中容易產生的過擬合問題,最后通過逐層貪婪無監督的“預訓練”和有監督的“微調”得到具有特征表示的權值進行語音識別,其具體方法是按下列步驟進行的:
1)語音數據預處理:
11)對語音信號進行采樣和量化,采樣率為,幀長256采樣點,幀移128采樣點;
12)對步驟11)所得到的語音信號進行預處理,包括預加重、分幀、加窗以及歸一化處理;
13)將步驟12)所得的單幀信號進行端點檢測,獲得有效的單幀信號;
2)提取聲學特征:
21)將步驟13)所得的有效單幀信號進行快速傅里葉變換,得到語音信號的頻域信號;
22)使用對應的濾波器組對步驟21)所得的頻域信號進行濾波處理;
23)對22)所得的濾波信號進行一系列非線性變換得到語音的聲學特征;
3)訓練修正線性深度自編碼網的步驟:
31)利用“訓練集”數據通過無監督逐層貪婪訓練算法“預訓練”網絡的第一個修正線性自動編碼器,并得到參數;
32)將第一個RAE的輸出作為第二個RAE的輸入,按相同的方式繼續訓練得到第二組參數,并對后面所有的RAE采取相同的策略依次訓練其參數;
33)在所有隱含層訓練完成之后,通過有監督的反向傳播算法調整所有層的參數,實現網絡“微調”;
34)將最頂層的隱含層輸出作為Softmax分類器的輸入,對輸入的語音數據進行分類識別;
35)選用三種激活函數ReLU、Sigmoid、tanh與兩種方法L2正則化和權重衰減Dropout的不同組合進行實驗,分析不同方法對系統識別性能的影響;
36) 選用ReLU和L2正則化的組合方法較其他方法取得了最佳的識別結果,從而證明基于L2正則化的修正線性深度自編碼網絡模型構建方法的可行性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611195535.4/1.html,轉載請聲明來源鉆瓜專利網。





