[發(fā)明專利]一種語音識別方法、裝置和電子設備有效
| 申請?zhí)枺?/td> | 202011294806.8 | 申請日: | 2020-11-18 |
| 公開(公告)號: | CN112420050B | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設計)人: | 易中華 | 申請(專利權)人: | 北京帝派智能科技有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/14;G10L15/16 |
| 代理公司: | 北京弘權知識產(chǎn)權代理有限公司 11363 | 代理人: | 郭放;許偉群 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 裝置 電子設備 | ||
1.一種語音識別方法,其特征在于,包括:
使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征;
生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列;
以所述第一發(fā)音符號序列作為數(shù)據(jù)生成器模型的輸入,以所述第一聲學表征作為所述數(shù)據(jù)生成器模型的輸出,訓練所述數(shù)據(jù)生成器模型,以使所述數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對應的聲學表征;
使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征,所述第二文本數(shù)據(jù)的規(guī)模大于所述第一文本數(shù)據(jù);
使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型,以使所述語言模型用于根據(jù)所述聲學模型輸出的所述聲學表征生成對應的文本序列。
2.根據(jù)權利要求1所述的方法,其特征在于,所述使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征,包括:
生成所述第二文本數(shù)據(jù)對應的第二發(fā)音符號序列;
將所述第二發(fā)音符號序列輸入到所述數(shù)據(jù)生成器模型,以生成所述第二聲學表征。
3.根據(jù)權利要求1或2所述的方法,其特征在于,
所述聲學模型包括高斯混合模型結合隱馬爾可夫模型GMM-HMM,或者神經(jīng)網(wǎng)絡模型結合隱馬爾可夫模型NN-HMM;所述神經(jīng)網(wǎng)絡模型包括長短期記憶網(wǎng)絡模型LSTM;
所述聲學表征包括所述GMM-HMM輸出的所有HMM狀態(tài)下的輸出概率;
或者,所述聲學表征包括所述神經(jīng)網(wǎng)絡模型經(jīng)由softmax層輸出的所有HMM狀態(tài)下的歸一化概率經(jīng)由連接時序模型CTC或者維特比算法viterbi輸出的帶有后驗概率PDF的發(fā)音單元序列網(wǎng)格。
4.根據(jù)權利要求1或2所述的方法,其特征在于,所述數(shù)據(jù)生成器模型包括生成對抗網(wǎng)絡GANNet。
5.根據(jù)權利要求1所述的方法,其特征在于,所述使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型,包括:以所述第二聲學表征為所述語言模型的輸入,以所述第二文本數(shù)據(jù)為所述語言模型的輸出,訓練所述語言模型。
6.根據(jù)權利要求1所述的方法,其特征在于,所述使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型,包括:以所述第一聲學表征和所述第二聲學表征為所述語言模型的輸入,以所述第一文本數(shù)據(jù)和所述第二文本數(shù)據(jù)為所述語言模型的輸出,訓練所述語言模型。
7.根據(jù)權利要求1、5、6任一項所述的方法,所述語言模型包括基于注意力機制的序列到序列的編碼器和解碼器;所述編碼器包括循環(huán)神經(jīng)網(wǎng)絡結構或者卷積神經(jīng)網(wǎng)絡結構;所述解碼器包括循環(huán)神經(jīng)網(wǎng)絡結構。
8.一種語音識別裝置,其特征在于,包括:
第一訓練單元,用于使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征;
第二訓練單元,用于生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列,以所述第一發(fā)音符號序列作為數(shù)據(jù)生成器模型的輸入,以所述第一聲學表征作為所述數(shù)據(jù)生成器模型的輸出,訓練所述數(shù)據(jù)生成器模型,以使所述數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對應的聲學表征;
第一生成單元,用于使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征,所述第二文本數(shù)據(jù)的規(guī)模大于所述第一文本數(shù)據(jù);
第二生成單元,用于使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型,以使所述語言模型用于根據(jù)所述聲學模型輸出的所述聲學表征生成對應的文本序列。
9.一種電子設備,其特征在于,包括:處理器和存儲器,所述存儲器存儲有計算機程序指令,當所述計算機程序指令被所述處理器執(zhí)行時,使得所述處理器執(zhí)行以下程序步驟:
使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征;
生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列;
以所述第一發(fā)音符號序列作為數(shù)據(jù)生成器模型的輸入,以所述第一聲學表征作為所述數(shù)據(jù)生成器模型的輸出,訓練所述數(shù)據(jù)生成器模型,以使所述數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對應的聲學表征;
使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征,所述第二文本數(shù)據(jù)的規(guī)模大于所述第一文本數(shù)據(jù);
使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型,以使所述語言模型用于根據(jù)所述聲學模型輸出的所述聲學表征生成對應的文本序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京帝派智能科技有限公司,未經(jīng)北京帝派智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011294806.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





