[發明專利]語音識別方法和裝置在審
| 申請號: | 201610847843.4 | 申請日: | 2016-09-23 |
| 公開(公告)號: | CN107871497A | 公開(公告)日: | 2018-04-03 |
| 發明(設計)人: | 劉孟竹;唐青松;張祥德 | 申請(專利權)人: | 北京眼神科技有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/16;G10L15/26;G10L17/04;G10L17/18 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,李志剛 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 | ||
1.一種語音識別方法,其特征在于,包括:
確定訓練語音信號和與所述訓練語音信號對應的語義標簽;
將所述訓練語音信號輸入第一神經網絡模型得到語音特征向量;
將所述語義標簽輸入第二神經網絡模型得到語義特征向量;
根據所述語音特征向量和所述語義特征向量訓練所述第一神經網絡模型中目標參數的參數值;
根據訓練后的所述第一神經網絡模型識別目標語音信號,其中,在所述訓練后的所述第一神經網絡模型中所述目標參數的值為訓練后的所述參數值。
2.根據權利要求1所述的方法,其特征在于,根據所述語音特征向量和所述語義特征向量訓練所述第一神經網絡模型中目標參數的參數值包括:
通過對齊網絡模型對齊所述語音特征向量和所述語義特征向量,得到訓練結果;
通過預設算法計算所述訓練結果所表示的語義與所述語義標簽所表示的語義的誤差;
根據所述誤差調整所述第一神經網絡模型中目標參數的參數值。
3.根據權利要求2所述的方法,其特征在于,
通過對齊網絡模型對齊所述語音特征向量和所述語義特征向量,得到訓練結果包括:確定輸出所述語音特征向量和所述語義特征向量的聯合概率分布,
通過預設算法計算所述訓練結果所表示的語義與所述語義標簽所表示的語義的誤差包括:根據forward-backward算法和所述聯合概率分布確定聯合模型的損失函數,其中,所述聯合模型包括所述第一神經網絡模型和所述第二神經網絡模型;根據所述損失函數確定所述訓練結果所表示的語義與所述語義標簽所表示的語義的誤差。
4.根據權利要求2所述的方法,其特征在于,所述對齊網絡模型為CTC對齊網絡模型,通過對齊網絡模型對齊所述語音特征向量和所述語義特征向量包括:
通過所述CTC對齊網絡模型對齊所述語音特征向量和所述語義特征向量。
5.根據權利要求1所述的方法,其特征在于,所述訓練語音信號為多個訓練語音信號Pn,所述語義標簽為與所述多個訓練語音信號一一對應的多個語義標簽Qn,
將所述訓練語音信號輸入第一神經網絡模型得到語音特征向量包括:將第i個訓練語音信號Pi輸入所述第一神經網絡模型得到語音特征向量Ri,其中,當前所述第一神經網絡模型的目標參數的參數值為M(i-1);
將所述語義標簽輸入第二神經網絡模型得到語義特征向量包括:將第i個語義標簽Qi輸入所述第二神經網絡模型得到語義特征向量Ti,其中,當前所述第二神經網絡模型的目標參數的參數值為S(i-1);
根據所述語音特征向量和所述語義特征向量訓練所述第一神經網絡模型中目標參數的參數值包括:根據所述語音特征向量Ri和所述語義特征向量Ti確定所述第一神經網絡模型中目標參數的參數值Mi和所述第二神經網絡模型的目標參數的參數值為Si,
依次執行以上步驟直到i=n。
6.根據權利要求1所述的方法,其特征在于,所述第一神經網絡模型為RNN模型,將所述訓練語音信號輸入第一神經網絡模型得到語音特征向量包括:
對所述訓練語音信號進行分幀處理,得到訓練語音序列;
將所述訓練語音序列輸入所述RNN模型得到所述語音特征向量。
7.根據權利要求1所述的方法,其特征在于,所述第二神經網絡模型為RNN模型,將所述語義標簽輸入第二神經網絡模型得到語義特征向量包括:
根據所述語義標簽確定語義標簽序列;
將所述語義標簽序列輸入所述RNN模型得到所述語義特征向量。
8.一種語音識別裝置,其特征在于,包括:
確定單元,用于確定訓練語音信號和與所述訓練語音信號對應的語義標簽;
第一輸入單元,用于將所述訓練語音信號輸入第一神經網絡模型得到語音特征向量;
第二輸入單元,用于將所述語義標簽輸入第二神經網絡模型得到語義特征向量;
訓練單元,用于根據所述語音特征向量和所述語義特征向量訓練所述第一神經網絡模型中目標參數的參數值;
識別單元,用于根據訓練后的所述第一神經網絡模型識別目標語音信號,其中,在所述訓練后的所述第一神經網絡模型中所述目標參數的值為訓練后的所述參數值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京眼神科技有限公司,未經北京眼神科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610847843.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音識別方法和裝置
- 下一篇:使用智能語音識別的自動化軟件執行方法





