[發明專利]一種基于人工智能的語音識別方法和裝置有效

申請號：	201910907251.0	申請日：	2019-09-24
公開（公告）號：	CN110634474B	公開（公告）日：	2022-03-25
發明（設計）人：	蘇丹;賀利強	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G10L15/08	分類號：	G10L15/08;G10L15/16;G10L15/26;G10L15/02
代理公司：	深圳市深佳知識產權代理事務所(普通合伙) 44285	代理人：	王兆林
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于人工智能語音識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請實施例公開了一種基于人工智能的語音識別方法和裝置，針對待識別語音信號，根據該待識別語音信號的聲學特征，確定對應的聲學建模描述特征，該聲學建模描述特征可以從聲學角度清楚的標識待識別語音信號的語音變化程度，相當于去除了原本聲學特征中的冗余信息，突出了有效信息的分布狀況。根據聲學建模描述特征預測語音識別系統中語音識別解碼器用于識別該待識別語音信號的解碼參數，并采用該解碼參數，通過語音識別解碼器識別該待識別語音信號。由此，針對不同的待識別語音信號，均可以在線預測適用的解碼參數進行識別，相對于固定解碼參數，可以具備更好的識別效果。

技術領域

本申請涉及數據處理領域，特別是涉及一種基于人工智能的語音識別方法和裝置。

背景技術

一些智能設備具有語音識別功能，智能設備的語音識別系統可以根據獲取的語音信號，識別出該語音信號對應的文本。一般語音識別系統中包括聲學模型、語言模型和語音識別解碼器，在識別語音信號時，語音識別解碼器讀入這兩種模型，對所有可能的文本空間通過兩種模型進行打分搜索，尋找到最優的文本路徑及最優的識別結果。

語音識別解碼器具有解碼參數，該解碼參數可以控制不同模型(例如聲學模型、語言模型)的權重比例，例如包括語言模型權重，靜音比例因子，詞插入懲罰因子等參數。故語音識別系統的識別精度、速度等均與該解碼參數相關。

在一些相關技術中，語音識別解碼器的解碼參數是根據一些測試集通過人工調整、設計確定的。之后在通過語音識別系統進行語音識別時，解碼參數將固定不變。難以適用于不同類型語音的識別，在一些場景下識別效果并不理想。

發明內容

為了解決上述技術問題，本申請提供了一種語音識別方法和裝置，針對不同的待識別語音信號，均可以在線預測適用的解碼參數進行識別，具備更好的識別效果。

本申請實施例公開了如下技術方案：

第一方面，本申請實施例提供了一種語音識別方法，所述方法包括：

獲取待識別語音信號的聲學特征；

根據所述聲學特征確定對應的聲學建模描述特征；所述聲學建模描述特征用于標識所述待識別語音信號的語音變化程度；