[發(fā)明專利]兒童語音識別模型訓(xùn)練語料篩選方法有效
| 申請?zhí)枺?/td> | 202011595683.1 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112634860B | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 錢彥旻;王巍;周之愷;盧怡宙;王鴻基;杜晨鵬 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/24;G10L15/14;G10L15/16 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 兒童 語音 識別 模型 訓(xùn)練 語料 篩選 方法 | ||
本發(fā)明公開一種兒童語音識別模型訓(xùn)練語料篩選方法,包括:將音素序列和兒童參考音頻輸入至TTS合成器得到多個合成音頻;獲取所述兒童參考音頻的參考特征信息和所述多個合成音頻的多個合成特征信息;根據(jù)所述參考特征信息和所述多個合成特征信息篩選所述多個合成音頻。本發(fā)明所提供的兒童語音識別模型訓(xùn)練語料篩選方法通過采用TTS合成器生成合成音頻,并根據(jù)生成合成音頻所使用的兒童參考音頻來對合成音頻進行篩選獲得高質(zhì)量的合成音頻,擴充了用于訓(xùn)練兒童語音識別模型的語料。不僅解決了兒童語料庫難收集的問題,而且確保了兒童語料庫中語料的質(zhì)量,有助于訓(xùn)練出性能良好的兒童語音識別模型。
技術(shù)領(lǐng)域
本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種兒童語音識別模型訓(xùn)練語料篩選方法、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
自引入深度神經(jīng)網(wǎng)絡(luò)以來,自動語音識別(ASR)系統(tǒng)的性能已得到顯著改善。有了大量的訓(xùn)練數(shù)據(jù)和先進的模型結(jié)構(gòu),ASR模型現(xiàn)在已經(jīng)能夠?qū)崿F(xiàn)人的均等表現(xiàn)。然而,據(jù)我們所知,盡管已經(jīng)做出了許多努力,但是兒童的語音識別仍然是一項艱巨的任務(wù)。
兒童語音識別的一項挑戰(zhàn)是缺乏數(shù)據(jù),因為兒童語料庫很難收集。此外,兒童的身體和發(fā)音特征和表情具有內(nèi)在的高變異性。為了克服這些困難,提出了聲道長度歸一化以減少揚聲器之間的聲音可變性。進行了音高和共振峰修改,以減少兒童和成人語音之間的聲學(xué)失配。但是,以上方法并未從根本上解決兒童語音數(shù)據(jù)的不足。
近年來,基于文本到語音(TTS)的ASR數(shù)據(jù)增強已得到廣泛應(yīng)用并取得了良好的性能。然而,由于兒童語音涉及不合標(biāo)準(zhǔn)或不清楚的發(fā)音,因此使用在兒童語音數(shù)據(jù)上訓(xùn)練的TTS系統(tǒng)生成的合成語音存在問題。結(jié)果,在這種情況下,合成語音的質(zhì)量是不一致的。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種兒童語音識別模型訓(xùn)練語料篩選方法、電子設(shè)備及存儲介質(zhì),用于至少解決上述技術(shù)問題之一。
第一方面,本發(fā)明實施例提供一種兒童語音識別模型訓(xùn)練語料篩選方法,包括:
將音素序列和兒童參考音頻輸入至TTS合成器得到多個合成音頻;
獲取所述兒童參考音頻的參考特征信息和所述多個合成音頻的多個合成特征信息;
根據(jù)所述參考特征信息和所述多個合成特征信息篩選所述多個合成音頻。
第二方面,本發(fā)明實施例提供一種存儲介質(zhì),所述存儲介質(zhì)中存儲有一個或多個包括執(zhí)行指令的程序,所述執(zhí)行指令能夠被電子設(shè)備(包括但不限于計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)讀取并執(zhí)行,以用于執(zhí)行本發(fā)明上述任一項兒童語音識別模型訓(xùn)練語料篩選方法。
第三方面,提供一種電子設(shè)備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本發(fā)明上述任一項兒童語音識別模型訓(xùn)練語料篩選方法。
第四方面,本發(fā)明實施例還提供一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括存儲在存儲介質(zhì)上的計算機程序,所述計算機程序包括程序指令,當(dāng)所述程序指令被計算機執(zhí)行時,使所述計算機執(zhí)行上述任一項兒童語音識別模型訓(xùn)練語料篩選方法。
本發(fā)明實施例的有益效果在于:本發(fā)明所提供的兒童語音識別模型訓(xùn)練語料篩選方法通過采用TTS合成器生成合成音頻,并根據(jù)生成合成音頻所使用的兒童參考音頻來對合成音頻進行篩選獲得高質(zhì)量的合成音頻,擴充了用于訓(xùn)練兒童語音識別模型的語料。不僅解決了兒童語料庫難收集的問題,而且確保了兒童語料庫中語料的質(zhì)量,有助于訓(xùn)練出性能良好的兒童語音識別模型。
附圖說明
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011595683.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





