[發(fā)明專利]一種少語料的語音模型訓(xùn)練及合成方法有效
| 申請?zhí)枺?/td> | 202110561416.0 | 申請日: | 2021-05-22 |
| 公開(公告)號: | CN112992118B | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計)人: | 曹艷艷;陳佩云 | 申請(專利權(quán))人: | 成都啟英泰倫科技有限公司 |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10;G10L13/02;G10L13/033;G10L19/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610041 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語料 語音 模型 訓(xùn)練 合成 方法 | ||
一種少語料的語音模型訓(xùn)練及合成方法,包括模型訓(xùn)練及語音合成;所述模型訓(xùn)練包括如下步驟:S1.收集訓(xùn)練樣本集;S2.對各個樣本進(jìn)行音素化處理,提取梅爾特征;S3.對語音模型進(jìn)行訓(xùn)練,得到泛化模型MA;S4.將基準(zhǔn)音色樣本在泛化模型MA基礎(chǔ)上做微調(diào)訓(xùn)練,得到基準(zhǔn)模型MB;S5.將訓(xùn)練樣本集的所有樣本按音色分類,訓(xùn)練音色轉(zhuǎn)化的轉(zhuǎn)換模型MTR;S6.使用訓(xùn)練樣本集的所有樣本訓(xùn)練得到每個音色對應(yīng)的個性聲碼器模型MG。本發(fā)明僅需要基準(zhǔn)音色較大數(shù)據(jù)量,即可實現(xiàn)對其他音色的少語料訓(xùn)練并得到合成音頻所需模型,模型訓(xùn)練時間縮短,通過轉(zhuǎn)換模型和個性聲碼器模型訓(xùn)練,提升了后續(xù)語音合成效果。
技術(shù)領(lǐng)域
本發(fā)明屬于語音處理技術(shù)領(lǐng)域,涉及語音合成技術(shù),具體涉及一種少語料的語音模型訓(xùn)練及合成方法。
背景技術(shù)
在人工智能技術(shù)領(lǐng)域,語音增強、語音合成一直都是專家學(xué)者及語音交互產(chǎn)品市場關(guān)注的話題。近年來,深度學(xué)習(xí)技術(shù)推動了人工智能領(lǐng)域的快速發(fā)展,語音合成也有了突破性進(jìn)展,某些特定場景下的合成語音真實度甚至可比擬真人發(fā)聲,語音合成技術(shù)廣泛應(yīng)用于新聞播報,有聲小說,配音等領(lǐng)域。
采用深度學(xué)習(xí)技術(shù)進(jìn)行合成相較于傳統(tǒng)的語音合成方法,不需要過多的語言學(xué)和信號學(xué)的知識,也不需要人工進(jìn)行語言學(xué)標(biāo)注,端到端的處理技術(shù)可以直接輸入文本,通過深度模型計算得到對應(yīng)的音頻信息,合成效果也優(yōu)于傳統(tǒng)語音合成算法。
但是深度學(xué)習(xí)合成方法也有其缺點,如對合成不好的文本進(jìn)行針對性優(yōu)化較難,而且需要大量的優(yōu)質(zhì)的原始語料,對語料的依賴性很大,質(zhì)量較差和數(shù)量不夠的訓(xùn)練集很難擬合端到端模型的大量參數(shù)。實際應(yīng)用中,客戶對音色的要求往往很多,包括年齡段(男、女、老、幼),音色類型(溫柔、可愛、嚴(yán)肅等),語種(中文,英文,日語等),想要收集如此多的語料工作量大。而不同語種的混合合成往往需要發(fā)音人會多種語言,更難以實現(xiàn)。
發(fā)明內(nèi)容
為克服現(xiàn)有方案技術(shù)存在的缺陷,本發(fā)明公開了一種少語料的語音模型訓(xùn)練及合成方法。
本發(fā)明公開了一種少語料的語音模型訓(xùn)練及合成方法,包括模型訓(xùn)練及語音合成;
所述模型訓(xùn)練包括如下步驟:
S1. 收集訓(xùn)練樣本集,所述訓(xùn)練樣本集包括多個音色的樣本,每一樣本包括文本及對應(yīng)的音頻文件,其中至少1個音色的樣本數(shù)據(jù)符合基準(zhǔn)音色標(biāo)準(zhǔn),所述基準(zhǔn)音色標(biāo)準(zhǔn)為語料數(shù)據(jù)樣本數(shù)據(jù)量大且質(zhì)量高;
S2. 對各個樣本的文本進(jìn)行音素化處理,得到音素化文本;對各個樣本的音頻文件采用相同方法提取梅爾特征;在符合基準(zhǔn)音色標(biāo)準(zhǔn)的樣本中選擇一個作為基準(zhǔn)音色樣本;
S3. 對語音模型進(jìn)行訓(xùn)練,得到泛化模型;訓(xùn)練方法為:所有樣本的音素化文本作為輸入,對應(yīng)音頻的梅爾特征作為輸出,訓(xùn)練語音模型;
S4. 將基準(zhǔn)音色樣本在泛化模型基礎(chǔ)上做微調(diào)訓(xùn)練,得到基準(zhǔn)模型;
S5. 將訓(xùn)練樣本集的所有樣本按音色分類,訓(xùn)練音色轉(zhuǎn)化的轉(zhuǎn)換模型,每一類音色對應(yīng)一個轉(zhuǎn)換模型;
S6. 使用訓(xùn)練樣本集的所有樣本訓(xùn)練泛化聲碼器模型,然后使用每個音色對應(yīng)的樣本分別在此泛化聲碼器模型上進(jìn)行微調(diào)訓(xùn)練,得到每個音色對應(yīng)的個性聲碼器模型。
優(yōu)選的:所述步驟S3中的語音模型為tacotron、fastspeech模型中任意一種。
優(yōu)選的:所述步驟S5中訓(xùn)練使用的轉(zhuǎn)換模型為stargan-vc模型。
優(yōu)選的:所述基準(zhǔn)音色標(biāo)準(zhǔn)為樣本的音頻數(shù)據(jù)時間長度大于10小時。
優(yōu)選的,所述樣本的音頻文件時間長度大于10分鐘。
優(yōu)選的,訓(xùn)練樣本集中各個樣本的文本完全不同。
優(yōu)選的,所述語音合成包括如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都啟英泰倫科技有限公司,未經(jīng)成都啟英泰倫科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110561416.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





