[發明專利]模型的訓練方法、語音識別方法、裝置、介質及設備有效
| 申請號: | 202011554089.8 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112669816B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 王康 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 南毅寧 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 語音 識別 裝置 介質 設備 | ||
1.一種語音識別模型的訓練方法,其特征在于,所述方法包括:
獲取訓練數據,其中,所述訓練數據中包含至少兩個語種的標注數據;
按照每一語種的標注數據的數量由高至低的順序對各個語種進行排序,以獲得各個語種對應的訓練順序;
按照所述訓練順序指示的語種的排位,依次獲取每一語種所對應的目標數據對預設模型進行迭代訓練,獲得目標語音識別模型,其中,所述目標數據是根據所述訓練順序中第一排位至當前排位的語種的標注數據確定出的,所述目標語音識別模型用于對所述至少兩個語種的語音數據進行語音識別。
2.根據權利要求1所述的方法,其特征在于,所述按照所述訓練順序指示的語種的排位,依次獲取每一語種所對應的目標數據對預設模型進行迭代訓練,獲得目標語音識別模型,包括:
獲取目標語種對應的目標數據,其中,所述目標語種初始為所述訓練順序中第一排位的語種;
根據所述目標語種對應的所述目標數據,對所述目標語種對應的初始模型進行訓練,獲得所述目標語種對應的目標模型,其中,在所述目標語種為所述第一排位的語種的情況下,所述初始模型為所述預設模型,在所述目標語種不是所述第一排位的語種的情況下,所述初始模型為所述訓練順序中所述目標語種的上一語種對應的目標模型;
將所述訓練順序中所述目標語種的下一語種作為新的目標語種,返回所述獲取目標語種對應的目標數據的步驟,直至每一語種的標注數據均進行迭代訓練,將所述訓練順序中最后排位的語種對應的目標模型確定為所述目標語音識別模型。
3.根據權利要求2所述的方法,其特征在于,所述獲取目標語種對應的目標數據,包括:
在所述目標語種為所述第一排位的語種的情況下,將所述目標語種的標注數據中第一數量的數據作為所述目標數據,其中,所述第一數量大于所述訓練順序中所述目標語種的下一語種的標注數據的數量,且所述第一數量小于或等于所述目標語種的標注數據的數量;
在所述目標語種不是所述第一排位的語種、且不是最后排位的語種的情況下,分別從所述目標語種的標注數據和排位位于所述目標語種之前的每一語種的標注數據中,獲取第二數量的數據作為所述目標數據,其中,所述第二數量大于所述目標語種對應的下一語種的標注數據的數量,且所述第二數量小于或等于所述目標語種的標注數據的數量;
在所述目標語種為最后排位的語種的情況下,分別從每一所述語種中獲取第三數量的標注數據作為所述目標數據,其中,所述第三數量為所述目標語種的標注數據的數量。
4.根據權利要求1所述的方法,其特征在于,在獲取每一語種所對應的目標數據對預設模型進行迭代訓練的過程中,每一迭代訓練對應的模型學習率與該次迭代訓練中新增的語種的標注數據的數量呈正相關關系。
5.根據權利要求4所述的方法,其特征在于,通過以下方式確定每一所述迭代訓練對應的模型學習率:
在所述迭代訓練為首次迭代的情況下,將預設學習率確定為該次迭代訓練對應的模型學習率;
在所述迭代訓練不是首次迭代的情況下,將上次迭代訓練對應的模型學習率與目標比例的乘積確定為該次迭代訓練對應的模型學習率,其中,所述目標比例小于1。
6.根據權利要求5所述的方法,其特征在于,所述目標比例為該次迭代訓練新增的語種的標注數據的數量與首次迭代訓練的語種的標注數據的數量的比值。
7.一種語音識別方法,其特征在于,所述方法包括:
接收待識別的語音數據;
將所述語音數據輸入目標語音識別模型,將所述目標語音識別模型輸出的識別結果作為所述語音數據的識別結果,其中,所述目標語音識別模型為根據權利要求1-6中任一項所述方法訓練得出的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011554089.8/1.html,轉載請聲明來源鉆瓜專利網。





