[發明專利]語音識別的方法、裝置、設備和計算機可讀介質在審
| 申請號: | 202011119709.5 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112259079A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 蔡猛;梁鎮麟;張駿 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L15/16;G10L15/26 |
| 代理公司: | 北京衛智暢科專利代理事務所(普通合伙) 11557 | 代理人: | 陳佳 |
| 地址: | 101200 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 設備 計算機 可讀 介質 | ||
1.一種語音識別的方法,包括:
將目標語音輸入預先訓練的語音識別模型,生成所述目標語音對應的目標文字,其中,所述語音識別模型是由兩個階段訓練得到的,第一階段包括對初始語音識別模型的編碼器中預定數目個網絡層進行凍結,對所述初始語音識別模型中其余層進行訓練,得到第一語音識別模型,第二階段包括解除所述預定數目個網絡層的凍結,對所述第一語音識別模型進行訓練,得到所述語音識別模型。
2.根據權利要求1所述的方法,其中,所述語音識別模型是通過如下步驟訓練得到的:
對初始語音識別模型的編碼器中預定數目個網絡層進行凍結,基于訓練數據對所述初始語音識別模型進行訓練,得到第一語音識別模型;
響應于所述第一語音識別模型符合預設條件,解除所述預定數目個網絡層的凍結,基于所述訓練數據對所述第一語音識別模型進行訓練,生成第二語音識別模型。
3.一種生成語音識別模型的方法,包括:
對初始語音識別模型的編碼器中預定數目個網絡層進行凍結,基于訓練數據對所述初始語音識別模型進行訓練,生成第一語音識別模型;
響應于所述第一語音識別模型參數符合預設條件,解除所述預定數目個網絡層的凍結,基于所述訓練數據對所述第一語音識別模型進行訓練,生成第二語音識別模型。
4.根據權利要求3所述的方法,其中,所述編碼器是通過時序分類損失函數訓練得到的。
5.根據權利要求3所述的方法,其中,所述初始語音識別模型是循環神經網絡轉化器。
6.根據權利要求3所述的方法,其中,所述預定數目個網絡層中的每個網絡層是長短期記憶網絡層。
7.一種語音識別的裝置,包括:
生成單元:被配置成將目標語音輸入預先訓練的語音識別模型,生成所述目標語音對應的目標文字,其中,所述語音識別模型是由兩個階段訓練得到的,第一階段包括對初始語音識別模型的編碼器中預定數目個網絡層進行凍結,對所述初始語音識別模型中其余層進行訓練,得到第一語音識別模型,第二階段包括解除所述預定數目個網絡層的凍結,對所述第一語音識別模型進行訓練,得到所述語音識別模型。
8.一種生成語音識別模型的裝置,包括:
第一生成單元:被配置成對初始語音識別模型的編碼器中預定數目個網絡層進行凍結,基于訓練數據對所述初始語音識別模型進行訓練,生成第一語音識別模型;
第二生成單元:被配置成響應于所述第一語音識別模型符合預設條件,解除所述預定數目個網絡層的凍結,基于所述訓練數據對所述第一語音識別模型進行訓練,生成第二語音識別模型。
9.一種電子設備,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-6中任一所述的方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其中,所述程序被處理器執行時實現如權利要求1-6中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011119709.5/1.html,轉載請聲明來源鉆瓜專利網。





