[發(fā)明專利]語音識別模型的訓(xùn)練方法及裝置、存儲介質(zhì)、電子裝置有效
| 申請?zhí)枺?/td> | 201910833277.5 | 申請日: | 2019-09-04 |
| 公開(公告)號: | CN110544469B | 公開(公告)日: | 2022-04-19 |
| 發(fā)明(設(shè)計)人: | 劉洋;唐大閏 | 申請(專利權(quán))人: | 秒針信息技術(shù)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 王曉婷 |
| 地址: | 100102 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 識別 模型 訓(xùn)練 方法 裝置 存儲 介質(zhì) 電子 | ||
本發(fā)明提供了一種語音識別模型的訓(xùn)練方法及裝置、存儲介質(zhì)、電子裝置,其中,上述方法包括:獲取以下至少之一數(shù)據(jù):獲取目標(biāo)對象在有噪聲的目標(biāo)場景下的第一語音數(shù)據(jù)、不同目標(biāo)場景的噪聲數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到無噪聲的所述目標(biāo)場景下的第二語音數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到所述第一語音數(shù)據(jù)的第三語音數(shù)據(jù);使用所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練,采用上述技術(shù)方案,解決了相關(guān)技術(shù)中在不同的背景噪聲場景下,語音識別模型識別正常語音的準(zhǔn)確率低等問題,提高了語音識別模型抗不同背景噪聲的魯棒性。
技術(shù)領(lǐng)域
本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種語音識別模型的訓(xùn)練方法及裝置、存儲介質(zhì)、電子裝置。
背景技術(shù)
連鎖餐廳為了提高服務(wù)員的服務(wù)規(guī)范,要求服務(wù)員按照餐廳指定的話術(shù)為顧客服務(wù)。通過佩戴錄音設(shè)備,語音模型識別出服務(wù)員是否按照要求的話術(shù)進(jìn)行服務(wù),在當(dāng)前主流的語音識別模型中,安靜場景下能達(dá)到很高的識別準(zhǔn)確性,但是真實(shí)環(huán)境的語音識別場景中,由于環(huán)境比較嘈雜,如連鎖餐廳的環(huán)境,涉及到餐廳的不同背景噪聲,如餐廳播放的背景音樂、服務(wù)員佩戴錄音設(shè)備過程中產(chǎn)生的設(shè)備的摩擦噪聲等,使得識別效果的準(zhǔn)確率大大下降。
針對相關(guān)技術(shù)中,在不同的背景噪聲場景下,語音識別模型識別正常語音的準(zhǔn)確率低等問題,尚未提出有效的技術(shù)方案。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種語音識別模型的訓(xùn)練方法及裝置、存儲介質(zhì)、電子裝置,以至少解決相關(guān)技術(shù)中在不同的背景噪聲場景下,語音識別模型識別正常語音的準(zhǔn)確率低等問題。
根據(jù)本發(fā)明的一個實(shí)施例,提供了一種語音識別模型的訓(xùn)練方法,包括:獲取以下至少之一數(shù)據(jù):獲取目標(biāo)對象在有噪聲的目標(biāo)場景下的第一語音數(shù)據(jù)、不同目標(biāo)場景的噪聲數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到無噪聲的所述目標(biāo)場景下的第二語音數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到所述第一語音數(shù)據(jù)的第三語音數(shù)據(jù);使用所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練。
在本發(fā)明實(shí)施例中,使用所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練之后,所述方法還包括:使用訓(xùn)練后的語音識別模型對有噪聲的所述目標(biāo)場景下的目標(biāo)對象的語音進(jìn)行識別,得到語音識別結(jié)果。
在本發(fā)明實(shí)施例中,使用所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練,包括:對至少由所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)組成的集合按照預(yù)定比例劃分為三個子集,其中,所述子集包括:訓(xùn)練集,測試集,驗(yàn)證集;使用所述訓(xùn)練集對所述語音識別模型進(jìn)行訓(xùn)練。
在本發(fā)明實(shí)施例中,所述預(yù)定比例包括:7:2:1,8:1:1。
在本發(fā)明實(shí)施例中,使用所述訓(xùn)練集對所述語音識別模型進(jìn)行訓(xùn)練之后,所述方法還包括:使用所述測試集對訓(xùn)練后的語音識別模型進(jìn)行測試,以測試所述訓(xùn)練后的語音識別模型是否正確;和/或使用所述驗(yàn)證集對訓(xùn)練后的語音識別模型進(jìn)行驗(yàn)證,以測試所述訓(xùn)練后的語音識別模型是否正確。
根據(jù)本發(fā)明的另一個實(shí)施例,還提供了一種語音識別模型的訓(xùn)練裝置,包括:獲取模塊,用于獲取以下至少之一數(shù)據(jù):獲取目標(biāo)對象在有噪聲的目標(biāo)場景下的第一語音數(shù)據(jù)、不同目標(biāo)場景的噪聲數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到無噪聲的所述目標(biāo)場景下的第二語音數(shù)據(jù)、將所述噪聲數(shù)據(jù)混合到所述第一語音數(shù)據(jù)的第三語音數(shù)據(jù);處理模塊,用于使用所述第一語音數(shù)據(jù),所述噪聲數(shù)據(jù),所述第二語音數(shù)據(jù)和所述第三語音數(shù)據(jù)對語音識別模型進(jìn)行訓(xùn)練。
在本發(fā)明實(shí)施例中,所述處理模塊,還用于使用訓(xùn)練后的語音識別模型對有噪聲的所述目標(biāo)場景下的目標(biāo)對象的語音進(jìn)行識別,得到語音識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于秒針信息技術(shù)有限公司,未經(jīng)秒針信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910833277.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





