[發明專利]語音識別模型確定方法、語音識別方法及裝置、電子設備在審
| 申請號: | 202010210590.6 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111402893A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 李杰;王曉瑞;李巖 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L25/27;G10L25/30 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 劉羚 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 模型 確定 方法 裝置 電子設備 | ||
1.一種語音識別模型確定方法,其特征在于,包括:
獲取樣本語音數據;
對所述樣本語音數據進行分幀,對分幀獲得的各幀樣本語音數據進行特征提取,獲得所述各幀樣本語音數據的語音特征;
對所述各幀樣本語音數據的語音特征基于音節進行對齊,得到所述各幀樣本語音數據對應的音節標簽;
采用待訓練語音識別模型對所述各幀樣本語音數據的語音特征進行識別,獲得所述各幀樣本語音數據對應的預測音節;
根據所述各幀樣本語音數據對應的預測音節和音節標簽,訓練所述待訓練語音識別模型,得到訓練好的語音識別模型。
2.根據權利要求1所述的方法,其特征在于,所述對所述各幀樣本語音數據的語音特征基于音節進行對齊,得到所述各幀樣本語音數據對應的音節標簽,包括:采用隱馬爾可夫模型-混合高斯模型對所述各幀樣本語音數據的語音特征基于音節進行對齊,得到所述各幀樣本語音數據對應的音節標簽。
3.根據權利要求2所述的方法,其特征在于,所述隱馬爾可夫模型-混合高斯模型的訓練過程包括:
獲取樣本語音數據以及所述樣本語音數據對應的音節序列;
對所述樣本語音數據進行特征提取,獲得所述樣本語音數據的語音特征;
采用待訓練隱馬爾可夫模型-混合高斯模型對所述語音特征基于音節進行對齊,獲得所述語音特征對應的音節數據,根據所述語音特征對應的音節數據以及所述音節序列,訓練所述待訓練隱馬爾可夫模型-混合高斯模型,得到訓練好的隱馬爾可夫模型-混合高斯模型。
4.根據權利要求1所述的方法,其特征在于,所述待訓練語言識別模型的結構包括時延神經網絡-長短期記憶網絡層和歸一化層;所述采用待訓練語音識別模型對所述各幀樣本語音數據的語音特征進行識別,獲得所述各幀樣本語音數據對應的預測音節,包括:
通過所述時延神經網絡-長短期記憶網絡層,對所述各幀語音數據的語音特征進行特征抽取,獲得所述各幀語音數據的目標特征;
通過所述歸一化層對各所述目標特征進行識別,獲得所述各幀語音數據對應的預測音節。
5.根據權利要求4所述的方法,其特征在于,所述通過所述時延神經網絡-長短期記憶網絡層,對所述各幀語音數據的語音特征進行特征抽取,獲得所述各幀語音數據的目標特征,包括:
通過所述時延神經網絡對當前幀語音數據以及所述當前幀的前后幀語音數據的語音特征進行特征抽取,獲得所述當前幀語音數據的中間輸出特征;
通過所述長短期記憶網絡對所述當前幀語音數據的語音特征以及所述中間輸出特征進行特征抽取,獲得所述當前幀語音數據的目標特征。
6.根據權利要求5所述的方法,其特征在于,所述通過所述時延神經網絡對當前幀語音數據以及所述當前幀的前后幀語音數據的語音特征進行特征抽取,獲得所述當前幀語音數據的中間輸出特征,包括:
以第一幀采樣頻率,將當前幀語音數據以及所述當前幀的前后幀語音數據的語音特征輸入時延神經網絡,通過所述時延神經網絡對當前幀語音數據以及所述當前幀的前后幀語音數據的語音特征進行特征抽取,獲得所述當前幀語音數據的中間輸出特征;
所述通過所述長短期記憶網絡對所述當前幀語音數據的語音特征以及所述中間輸出特征進行特征抽取,獲得所述當前幀語音數據的目標特征,包括:
以小于所述第一幀采樣頻率的第二幀采樣頻率,將所述當前幀語音數據的語音特征以及所述中間輸出特征輸入長短期記憶網絡,通過所述長短期記憶網絡對所述當前幀語音數據的語音特征以及所述中間輸出特征進行特征抽取,獲得所述當前幀語音數據的目標特征。
7.一種語音識別方法,其特征在于,包括:
獲取待識別語音數據;
對所述待識別語音數據進行分幀,對分幀獲得的各幀語音數據進行特征提取,獲得所述各幀語音數據的語音特征;
采用權利要求1至6中任一項所述方法獲得的語音識別模型對所述各幀語音數據的語音特征進行識別,獲得所述各幀語音數據對應的音節;
根據所述各幀語音數據對應的音節,確定所述待識別語音數據對應的文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010210590.6/1.html,轉載請聲明來源鉆瓜專利網。





