[發(fā)明專利]模型的訓(xùn)練方法、語音識別方法、裝置、介質(zhì)及設(shè)備有效
| 申請?zhí)枺?/td> | 202011554089.8 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112669816B | 公開(公告)日: | 2023-06-02 |
| 發(fā)明(設(shè)計)人: | 王康 | 申請(專利權(quán))人: | 北京有竹居網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 南毅寧 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 模型 訓(xùn)練 方法 語音 識別 裝置 介質(zhì) 設(shè)備 | ||
本公開涉及一種模型的訓(xùn)練方法、語音識別方法、裝置、介質(zhì)及設(shè)備,所述方法包括:獲取訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)中包含至少兩個語種的標(biāo)注數(shù)據(jù);按照每一語種的標(biāo)注數(shù)據(jù)的數(shù)量由高至低的順序?qū)Ω鱾€語種進(jìn)行排序,以獲得各個語種對應(yīng)的訓(xùn)練順序;按照所述訓(xùn)練順序指示的語種的排位,依次獲取每一語種所對應(yīng)的目標(biāo)數(shù)據(jù)對預(yù)設(shè)模型進(jìn)行迭代訓(xùn)練,獲得目標(biāo)語音識別模型,其中,所述目標(biāo)數(shù)據(jù)是根據(jù)所述訓(xùn)練順序中第一排位至當(dāng)前排位的語種的標(biāo)注數(shù)據(jù)確定出的。通過上述技術(shù)方案,可以有效避免標(biāo)注數(shù)據(jù)的數(shù)量分布不均對目標(biāo)語音識別模型的準(zhǔn)確率的影響,同時也可以提高目標(biāo)語音識別模型的訓(xùn)練效率。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,具體地,涉及一種模型的訓(xùn)練方法、語音識別方法、裝置、介質(zhì)及設(shè)備。
背景技術(shù)
在國際化的推進(jìn)過程中,會遇到多語種的語音識別問題。每一語種都有其獨特性,其使用范圍和普及度也各不相同。由此,可以對多語種的語音數(shù)據(jù)進(jìn)行識別的語音識別模型應(yīng)運而生。然后在該語音識別模型的訓(xùn)練數(shù)據(jù)的中針對不同語種的收集難度和不同語種的語音數(shù)據(jù)的數(shù)據(jù)量也都不同,通常使用人數(shù)較多的語種,其對應(yīng)的訓(xùn)練數(shù)據(jù)較多。現(xiàn)有技術(shù)中,通常是將不同訓(xùn)練數(shù)據(jù)量的語種所對應(yīng)的訓(xùn)練數(shù)據(jù)混合在一起進(jìn)行訓(xùn)練,這會導(dǎo)致訓(xùn)練得出的模型對數(shù)據(jù)量較多的語種的識別率較高,而對于數(shù)據(jù)量較少的語種的識別率較低。
發(fā)明內(nèi)容
提供該發(fā)明內(nèi)容部分以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細(xì)描述。該發(fā)明內(nèi)容部分并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。
第一方面,本公開提供一種語音識別模型的訓(xùn)練方法,所述方法包括:
獲取訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)中包含至少兩個語種的標(biāo)注數(shù)據(jù);
按照每一語種的標(biāo)注數(shù)據(jù)的數(shù)量由高至低的順序?qū)Ω鱾€語種進(jìn)行排序,以獲得各個語種對應(yīng)的訓(xùn)練順序;
按照所述訓(xùn)練順序指示的語種的排位,依次獲取每一語種所對應(yīng)的目標(biāo)數(shù)據(jù)對預(yù)設(shè)模型進(jìn)行迭代訓(xùn)練,獲得目標(biāo)語音識別模型,其中,所述目標(biāo)數(shù)據(jù)是根據(jù)所述訓(xùn)練順序中第一排位至當(dāng)前排位的語種的標(biāo)注數(shù)據(jù)確定出的,所述目標(biāo)語音識別模型用于對所述至少兩個語種的語音數(shù)據(jù)進(jìn)行語音識別。
第二方面,提供一種語音識別方法,所述方法包括:
接收待識別的語音數(shù)據(jù);
將所述語音數(shù)據(jù)輸入目標(biāo)語音識別模型,將所述目標(biāo)語音識別模型輸出的識別結(jié)果作為所述語音數(shù)據(jù)的識別結(jié)果,其中,所述目標(biāo)語音識別模型為根據(jù)第一方面所述方法訓(xùn)練得出的。
第三方面,提供一種語音識別模型的訓(xùn)練裝置,所述裝置包括:
獲取模塊,用于獲取訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)中包含至少兩個語種的標(biāo)注數(shù)據(jù);
排序模塊,用于按照每一語種的標(biāo)注數(shù)據(jù)的數(shù)量由高至低的順序?qū)Ω鱾€語種進(jìn)行排序,以獲得各個語種對應(yīng)的訓(xùn)練順序;
訓(xùn)練模塊,用于按照所述訓(xùn)練順序指示的語種的排位,依次獲取每一語種所對應(yīng)的目標(biāo)數(shù)據(jù)對預(yù)設(shè)模型進(jìn)行迭代訓(xùn)練,獲得目標(biāo)語音識別模型,其中,所述目標(biāo)數(shù)據(jù)是根據(jù)所述訓(xùn)練順序中第一排位至當(dāng)前排位的語種的標(biāo)注數(shù)據(jù)確定出的,所述目標(biāo)語音識別模型用于對所述至少兩個語種的語音數(shù)據(jù)進(jìn)行語音識別。
第四方面,提供一種語音識別裝置,所述裝置包括:
接收模塊,用于接收待識別的語音數(shù)據(jù);
輸入模塊,用于將所述語音數(shù)據(jù)輸入目標(biāo)語音識別模型,將所述目標(biāo)語音識別模型輸出的識別結(jié)果作為所述語音數(shù)據(jù)的識別結(jié)果,其中,所述目標(biāo)語音識別模型為根據(jù)第一方面所述方法訓(xùn)練得出的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京有竹居網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京有竹居網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011554089.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





