[發明專利]修正線性深度自編碼網絡語音識別方法在審
| 申請號: | 201611195535.4 | 申請日: | 2016-12-22 |
| 公開(公告)號: | CN106782511A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 黃麗霞;張雪英;孫穎;婁英丹 | 申請(專利權)人: | 太原理工大學 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 太原倍智知識產權代理事務所(普通合伙)14111 | 代理人: | 戎文華 |
| 地址: | 030024 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 修正 線性 深度 編碼 網絡 語音 識別 方法 | ||
技術領域
本發明涉及一種應用建立深度學習網絡模型對語音進行識別的方法,屬于語音信號處理領域,具體涉及一種修正線性深度自編碼網絡語音識別方法。
背景技術
由于傳統語音識別方法的理論假設和實際情況相比存在較大差異,導致在現實應用中難以達到預期性能,亟待在理論取得突破。深度學習是當前針對大數據的重要機器學習理論,在語音、圖像、文本等領域有廣泛的應用。目前,深度學習算法在語音識別方面已有一定的發展,它模擬了人類神經元活動原理,具有自學習、聯想、對比、推理和概括能力,為解決語音識別這樣的一個復雜的模式識別問題提供了新的途徑。但是,隨著模型深度增加,訓練難度也在逐漸加大,如何找到一種快速有效的訓練算法,是目前研究中需要克服的難題。
目前針對建立深度學習語音識別聲學模型的最常用方法是使用受限玻爾茲曼機(Restricted Boltzmann Machines,RBM)作為基本單元,通過無監督逐層貪婪訓練算法和對比散度算法,建立深度置信網絡(Deep Belief Network,DBN)聲學模型,例如文獻“A fast learning algorithm for deep belief nets”(Neural Computation, 2006, 18(7))中所提到。這種方法解決傳統BP算法訓練多層神經網絡需要大量的含標號訓練樣本集、較慢的收斂速度、以及因不合適的參數選擇而陷入局部最優的難題。
在文獻“Context Dependent Pre-Trained Deep Neural Networks for Large Vocabulary Speech Recognition”(IEEE Transactions on Audio Speech and Language Processing, 2012, 20(1))中,微軟研究人員進一步使用深度信念網絡對數以千計的senones(一種比音素小很多的建模單元)直接建模,提出了第1個成功應用于大詞匯量語音識別系統的上下文相關的深層神經網絡-隱馬爾可夫混合模型(Context-Dependent Deep Neural Network Hidden Markov Model,CD-DNN-HMM)。
雖然深度學習語音識別的方法一直在不斷改進,但無論哪種方法在噪聲環境下識別性能的急劇下降仍是一個重大難題,這極大制約著自動語音識別技術在實際中的應用。另外,深度模型訓練時容易產生的“梯度消失”和過擬合等問題也始終影響著系統的性能表現。
發明內容
本發明要解決的具體技術問題是:如何在噪聲環境下,建立深度學習語音識別系統方法,并取得良好的抗噪性能。
為了優化深度模型的訓練算法,提出基于L2正則化的修正線性深度自編碼網絡(Rectified Deep Auto-encoder,RDAE)模型構建方法;首先采用修正線性單元作為激活函數替換傳統的Sigmoid函數對深度自編碼網絡進行訓練,其次引入L2正則化來優化深度模型訓練過程中容易產生的過擬合問題,最后通過無監督的“預訓練”(pre-training)和有監督的“微調”(fine-tuning)得到一組具有特征表示的權值,從而對測試語音完成識別任務。
本發明的具體技術方案為:建立基于L2正則化的修正線性深度自編碼網絡模型構建方法,在訓練時首先進行無監督學習,稱為網絡“預訓練”,然后將預訓練得到的參數當作有監督學習的初始值再進行有監督訓練,最后通過反向傳播算法調整所有層的參數,稱為網絡“微調”;具體步驟如下:
1)語音數據預處理:
11)對語音信號進行采樣和量化,采樣率為,幀長256采樣點,幀移128采樣點;
12)對步驟11)所得到的語音信號進行預處理,包括預加重、分幀、加窗以及歸一化處理;
13)將步驟12)所得的單幀信號進行端點檢測,獲得有效的單幀信號;
2)提取聲學特征:
21)將步驟13)所得的有效單幀信號進行快速傅里葉變換,得到語音信號的頻域信號。
22)使用對應的濾波器組對步驟21)所得的頻域信號進行濾波處理;
23)對22)所得的濾波信號進行一系列非線性變換得到語音的聲學特征;
3)訓練修正線性深度自編碼網的步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于太原理工大學,未經太原理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611195535.4/2.html,轉載請聲明來源鉆瓜專利網。





