[發(fā)明專利]一種語音識別方法、裝置和電子設備有效

申請?zhí)枺?/td>	202011294806.8	申請日：	2020-11-18
公開（公告）號：	CN112420050B	公開（公告）日：	2021-06-18
發(fā)明（設計）人：	易中華	申請（專利權）人：	北京帝派智能科技有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/14;G10L15/16
代理公司：	北京弘權知識產(chǎn)權代理有限公司 11363	代理人：	郭放;許偉群
地址：	100080 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法裝置電子設備
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音識別方法，其特征在于，包括：

使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征；

生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列；

以所述第一發(fā)音符號序列作為數(shù)據(jù)生成器模型的輸入，以所述第一聲學表征作為所述數(shù)據(jù)生成器模型的輸出，訓練所述數(shù)據(jù)生成器模型，以使所述數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對應的聲學表征；

使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征，所述第二文本數(shù)據(jù)的規(guī)模大于所述第一文本數(shù)據(jù)；

使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型，以使所述語言模型用于根據(jù)所述聲學模型輸出的所述聲學表征生成對應的文本序列。

2.根據(jù)權利要求1所述的方法，其特征在于，所述使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征，包括：

生成所述第二文本數(shù)據(jù)對應的第二發(fā)音符號序列；

將所述第二發(fā)音符號序列輸入到所述數(shù)據(jù)生成器模型，以生成所述第二聲學表征。

3.根據(jù)權利要求1或2所述的方法，其特征在于，

所述聲學模型包括高斯混合模型結合隱馬爾可夫模型GMM-HMM，或者神經(jīng)網(wǎng)絡模型結合隱馬爾可夫模型NN-HMM；所述神經(jīng)網(wǎng)絡模型包括長短期記憶網(wǎng)絡模型LSTM；

所述聲學表征包括所述GMM-HMM輸出的所有HMM狀態(tài)下的輸出概率；

或者，所述聲學表征包括所述神經(jīng)網(wǎng)絡模型經(jīng)由softmax層輸出的所有HMM狀態(tài)下的歸一化概率經(jīng)由連接時序模型CTC或者維特比算法viterbi輸出的帶有后驗概率PDF的發(fā)音單元序列網(wǎng)格。

4.根據(jù)權利要求1或2所述的方法，其特征在于，所述數(shù)據(jù)生成器模型包括生成對抗網(wǎng)絡GANNet。

5.根據(jù)權利要求1所述的方法，其特征在于，所述使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型，包括：以所述第二聲學表征為所述語言模型的輸入，以所述第二文本數(shù)據(jù)為所述語言模型的輸出，訓練所述語言模型。

6.根據(jù)權利要求1所述的方法，其特征在于，所述使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型，包括：以所述第一聲學表征和所述第二聲學表征為所述語言模型的輸入，以所述第一文本數(shù)據(jù)和所述第二文本數(shù)據(jù)為所述語言模型的輸出，訓練所述語言模型。

7.根據(jù)權利要求1、5、6任一項所述的方法，所述語言模型包括基于注意力機制的序列到序列的編碼器和解碼器；所述編碼器包括循環(huán)神經(jīng)網(wǎng)絡結構或者卷積神經(jīng)網(wǎng)絡結構；所述解碼器包括循環(huán)神經(jīng)網(wǎng)絡結構。

8.一種語音識別裝置，其特征在于，包括：

第一訓練單元，用于使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征；

第二訓練單元，用于生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列，以所述第一發(fā)音符號序列作為數(shù)據(jù)生成器模型的輸入，以所述第一聲學表征作為所述數(shù)據(jù)生成器模型的輸出，訓練所述數(shù)據(jù)生成器模型，以使所述數(shù)據(jù)生成器模型用于根據(jù)任意文本數(shù)據(jù)生成對應的聲學表征；

第一生成單元，用于使用所述數(shù)據(jù)生成器模型生成第二文本數(shù)據(jù)對應的第二聲學表征，所述第二文本數(shù)據(jù)的規(guī)模大于所述第一文本數(shù)據(jù)；

第二生成單元，用于使用所述第二文本數(shù)據(jù)和所述第二聲學表征訓練語言模型，以使所述語言模型用于根據(jù)所述聲學模型輸出的所述聲學表征生成對應的文本序列。

9.一種電子設備，其特征在于，包括：處理器和存儲器，所述存儲器存儲有計算機程序指令，當所述計算機程序指令被所述處理器執(zhí)行時，使得所述處理器執(zhí)行以下程序步驟：

使用聲學模型生成第一語音數(shù)據(jù)對應的第一聲學表征；

生成第一文本數(shù)據(jù)對應的第一發(fā)音符號序列；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京帝派智能科技有限公司，未經(jīng)北京帝派智能科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011294806.8/1.html，轉載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準模板；訓練語音識別系統(tǒng)，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】