[發明專利]一種基于人工智能的語音識別方法和裝置有效
| 申請號: | 201910907251.0 | 申請日: | 2019-09-24 |
| 公開(公告)號: | CN110634474B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 蘇丹;賀利強 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/08 | 分類號: | G10L15/08;G10L15/16;G10L15/26;G10L15/02 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 語音 識別 方法 裝置 | ||
本申請實施例公開了一種基于人工智能的語音識別方法和裝置,針對待識別語音信號,根據該待識別語音信號的聲學特征,確定對應的聲學建模描述特征,該聲學建模描述特征可以從聲學角度清楚的標識待識別語音信號的語音變化程度,相當于去除了原本聲學特征中的冗余信息,突出了有效信息的分布狀況。根據聲學建模描述特征預測語音識別系統中語音識別解碼器用于識別該待識別語音信號的解碼參數,并采用該解碼參數,通過語音識別解碼器識別該待識別語音信號。由此,針對不同的待識別語音信號,均可以在線預測適用的解碼參數進行識別,相對于固定解碼參數,可以具備更好的識別效果。
技術領域
本申請涉及數據處理領域,特別是涉及一種基于人工智能的語音識別方法和裝置。
背景技術
一些智能設備具有語音識別功能,智能設備的語音識別系統可以根據獲取的語音信號,識別出該語音信號對應的文本。一般語音識別系統中包括聲學模型、語言模型和語音識別解碼器,在識別語音信號時,語音識別解碼器讀入這兩種模型,對所有可能的文本空間通過兩種模型進行打分搜索,尋找到最優的文本路徑及最優的識別結果。
語音識別解碼器具有解碼參數,該解碼參數可以控制不同模型(例如聲學模型、語言模型)的權重比例,例如包括語言模型權重,靜音比例因子,詞插入懲罰因子等參數。故語音識別系統的識別精度、速度等均與該解碼參數相關。
在一些相關技術中,語音識別解碼器的解碼參數是根據一些測試集通過人工調整、設計確定的。之后在通過語音識別系統進行語音識別時,解碼參數將固定不變。難以適用于不同類型語音的識別,在一些場景下識別效果并不理想。
發明內容
為了解決上述技術問題,本申請提供了一種語音識別方法和裝置,針對不同的待識別語音信號,均可以在線預測適用的解碼參數進行識別,具備更好的識別效果。
本申請實施例公開了如下技術方案:
第一方面,本申請實施例提供了一種語音識別方法,所述方法包括:
獲取待識別語音信號的聲學特征;
根據所述聲學特征確定對應的聲學建模描述特征;所述聲學建模描述特征用于標識所述待識別語音信號的語音變化程度;
根據所述聲學建模描述特征,預測語音識別解碼器用于所述待識別語音信號的解碼參數;
通過所述語音識別解碼器,采用所述解碼參數對所述待識別語音信號進行識別。
第二方面,本申請實施例提供了一種語音識別裝置,所述裝置包括獲取單元、確定單元、預測單元和識別單元:
所述獲取單元,用于獲取待識別語音信號的聲學特征;
所述確定單元,用于根據所述聲學特征確定對應的聲學建模描述特征;所述聲學建模描述特征用于標識所述待識別語音信號的語音變化程度;
所述預測單元,用于根據所述聲學建模描述特征,預測語音識別解碼器用于所述待識別語音信號的解碼參數;
所述識別單元,用于通過所述語音識別解碼器,采用所述解碼參數對所述待識別語音信號進行識別。
第三方面,本申請實施例提供了一種用于語音識別的設備,所述設備包括處理器以及存儲器:
所述存儲器用于存儲程序代碼,并將所述程序代碼傳輸給所述處理器;
所述處理器用于根據所述程序代碼中的指令執行第一方面中的語音識別方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲程序代碼,所述程序代碼用于執行第一方面中的語音識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910907251.0/2.html,轉載請聲明來源鉆瓜專利網。





