[發明專利]語音識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201710445076.9 | 申請日: | 2017-06-12 |
| 公開(公告)號: | CN107633842B | 公開(公告)日: | 2018-08-31 |
| 發明(設計)人: | 梁浩;王健宗;程寧;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 王寧 |
| 地址: | 518052 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種語音識別方法,所述方法包括:
獲取待識別的語音數據;
提取所述語音數據中的Filter Bank特征和MFCC特征;
將所述MFCC特征作為訓練后的GMM-HMM模型的輸入數據,獲取所述訓練后的GMM-HMM模型輸出的第一似然概率矩陣;
將所述Filter Bank特征作為訓練后的具有連接單元的LSTM模型的輸入特征,獲取所述具有連接單元的LSTM模型輸出的后驗概率矩陣,所述連接單元用于控制所述LSTM模型中層與層之間的信息流動,包括:獲取待識別語音數據中每一幀語音數據對應的Filter Bank特征并按照時間排序;將每一幀語音數據以及該幀的前后預設幀數的Filter Bank特征作為所述訓練后的具有連接單元的LSTM模型的輸入特征,通過所述連接單元控制層與層之間的信息流動,獲取輸出的每一幀語音數據對應的音素狀態上的后驗概率;根據所述每一幀語音數據對應的后驗概率確定所述待識別語音數據對應的后驗概率矩陣;
將所述后驗概率矩陣和所述第一似然概率矩陣作為訓練后的HMM模型的輸入數據,獲取輸出的第二似然概率矩陣;
根據所述第二似然概率矩陣在音素解碼網絡中獲取與所述待識別的語音數據對應的目標詞序列。
2.根據權利要求1所述的方法,其特征在于,所述連接單元為sigmoid函數;所述將所述Filter Bank特征作為訓練后的具有連接單元的LSTM模型的輸入特征,獲取所述具有連接單元的LSTM模型輸出的后驗概率矩陣,所述連接單元用于控制所述LSTM模型中層與層之間的信息流動,包括:
將所述Filter Bank特征作為所述訓練后的具有連接單元的LSTM模型的輸入特征;
根據所述LSTM模型中前一層神經元節點的狀態和輸出以及后一層神經元節點的輸入確定層與層之間的連接單元所對應的sigmoid函數值;
根據所述層與層之間的連接單元所對應的sigmoid函數值,輸出與所述FilterBank特征對應的后驗概率矩陣。
3.根據權利要求1所述的方法,其特征在于,所述提取所述語音數據中的Filter Bank特征和MFCC特征的步驟包括:
將所述待識別的語音數據進行傅里葉變換轉換為頻域的能量譜;
將所述頻域的能量譜作為梅爾尺度的三角濾波器組的輸入特征,計算得到待識別語音數據的Filter Bank特征;
將所述Filter Bank特征經過離散余弦變換得到待識別語音數據的MFCC特征。
4.根據權利要求1所述的方法,其特征在于,在所述獲取待識別的語音數據的步驟之前還包括:
采用訓練語料庫對高斯混合模型GMM和HMM進行訓練,通過不斷的迭代訓練確定所述GMM模型對應的方差和均值;
根據所述方差和均值生成訓練后的GMM-HMM模型;
根據所述訓練語料庫中提取的MFCC特征,采用訓練后的GMM-HMM模型獲取到所述訓練語料庫對應的似然概率矩陣;
根據所述訓練預料庫中提取的Filter Bank特征和所述似然概率矩陣對所述具有連接單元的LSTM模型進行訓練,確定與所述具有連接單元的LSTM模型對應的權重矩陣和偏置矩陣;
根據所述權重矩陣和偏置矩陣生成訓練后的具有連接單元的LSTM模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710445076.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種包裝秤用自適應除塵裝置
- 下一篇:一種粉末藥品的分藥裝置





