[發明專利]語音識別方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202110470112.3 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113192492A | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 王瑞璋;魏韜;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518057 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種語音識別方法、裝置、計算機設備及存儲介質,該方法包括:獲取訓練數據,包括標準普通話訓練數據和非標準普通話訓練數據;將標準普通話訓練數據輸入主神經網絡進行訓練獲得普通話聲學模型;在普通話聲學模型中增加分支神經網絡;將標準普通話訓練數據和非標準普通話訓練數據輸入普通話聲學模型進行多任務訓練;對普通話聲學模型進行模型更新,生成初始聲學模型;將訓練數據輸入初始聲學模型進行訓練,獲得目標聲學模型;將語音信息輸入至目標聲學模型中得到語音信息的語義信息,不僅提高了ASR識別效率;并且也避免了由于口音識別錯誤而影響ASR識別的準確性。本申請還涉及區塊鏈技術,目標聲學模型可以存儲在區塊鏈節點中。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種語音識別方法、裝置、計算機設備及存儲介質。
背景技術
對于電話客服場景,普通話ASR(Automatic Speech Recognition,自動語音識別技術)受口音影響的情況很普遍。為了解決這一問題,傳統方法一般是為不同口音提供專用聲學模型,整個ASR系統包含多種口音的專用聲學模型,同時前端配置口音識別模塊。這種ASR系統復雜度太高,時延高,影響了ASR識別的效率;并且,口音識別錯誤也會影響ASR識別的準確性。
因此,如何提高ASR識別效率及準確性成為亟待解決的問題。
發明內容
本申請提供了一種語音識別方法、裝置、計算機設備及存儲介質,能夠實現提高ASR識別效率及準確性。
第一方面,本申請提供了一種語音識別方法,所述方法包括:
獲取訓練數據,所述訓練數據包括標準普通話訓練數據和非標準普通話訓練數據;
將所述標準普通話訓練數據輸入主神經網絡進行訓練,獲得普通話聲學模型;
在所述普通話聲學模型中增加分支神經網絡,其中,所述分支神經網絡包括多個網絡層,每個所述網絡層的網絡層信息與所述主神經網絡中對應網絡層的網絡層信息一致;
將所述標準普通話訓練數據和所述非標準普通話訓練數據分別輸入包含所述分支神經網絡的所述普通話聲學模型進行多任務訓練,獲得多任務訓練后的所述普通話聲學模型;
對多任務訓練后的所述普通話聲學模型進行模型更新,生成初始聲學模型;
將所述訓練數據輸入所述初始聲學模型進行訓練,獲得對應的目標聲學模型;
獲取待識別的語音信息,將所述語音信息輸入至所述目標聲學模型中得到所述語音信息的語義信息,其中,所述語音信息包含標準普通話和/或非標準普通話。
第二方面,本申請還提供了一種語音識別裝置,所述裝置包括:
數據獲取模塊,用于獲取訓練數據,所述訓練數據包括標準普通話訓練數據和非標準普通話訓練數據;
第一模型訓練模塊,用于將所述標準普通話訓練數據輸入主神經網絡進行訓練,獲得普通話聲學模型;
第一模型處理模塊,用于在所述普通話聲學模型中增加分支神經網絡,其中,所述分支神經網絡包括多個網絡層,每個所述網絡層的網絡層信息與所述主神經網絡中對應網絡層的網絡層信息一致;
第二模型訓練模塊,用于將所述標準普通話訓練數據和所述非標準普通話訓練數據分別輸入包含所述分支神經網絡的所述普通話聲學模型進行多任務訓練,獲得多任務訓練后的所述普通話聲學模型;
第二模型處理模塊,用于對多任務訓練后的所述普通話聲學模型進行模型更新,生成初始聲學模型;
第三模型訓練模塊,用于將所述訓練數據輸入所述初始聲學模型進行訓練,獲得對應的目標聲學模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110470112.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種板材的處理系統
- 下一篇:目標操作函數的生成方法和裝置





