[發(fā)明專利]基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202011593537.5 | 申請(qǐng)日: | 2020-12-29 |
| 公開(kāi)(公告)號(hào): | CN112735389A | 公開(kāi)(公告)日: | 2021-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 孫奧蘭;王健宗;程寧 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/16;G10L15/02;G10L15/26;G10L19/16;G10L25/24 |
| 代理公司: | 深圳國(guó)新南方知識(shí)產(chǎn)權(quán)代理有限公司 44374 | 代理人: | 葉小翠 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 學(xué)習(xí) 語(yǔ)音 訓(xùn)練 方法 裝置 設(shè)備 以及 存儲(chǔ) 介質(zhì) | ||
本發(fā)明公開(kāi)了一種基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì),應(yīng)用于人工智能技術(shù)領(lǐng)域,提供通過(guò)教師?學(xué)生神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)音合成模型的方法,能夠高效、快速、低資源消耗低訓(xùn)練語(yǔ)音合成模型。本發(fā)明提供的方法包括:對(duì)第一音素序列進(jìn)行編碼得到第一音素編碼值;對(duì)第一音素編碼值進(jìn)行時(shí)長(zhǎng)預(yù)測(cè)處理得到第一發(fā)音時(shí)長(zhǎng)預(yù)測(cè)值;對(duì)第一音素序列中的每個(gè)音素進(jìn)行擴(kuò)展處理,得到第一音素序列中的每個(gè)音素的擴(kuò)展特征;將第一音素序列中的每個(gè)音素的擴(kuò)展特征變換為第一梅爾頻譜值;通過(guò)訓(xùn)練好的教師神經(jīng)網(wǎng)絡(luò)提供的隱變量以及第一梅爾頻譜值對(duì)學(xué)生神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練至學(xué)生神經(jīng)網(wǎng)絡(luò)的第一損失函數(shù)收斂時(shí),得到訓(xùn)練好的學(xué)生神經(jīng)網(wǎng)絡(luò)。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)。
背景技術(shù)
現(xiàn)有的基于深度學(xué)習(xí)的語(yǔ)音合成技術(shù),大多數(shù)基于序列-到-序列(seq2seq)的方案,如Tacotron2,相較于傳統(tǒng)的統(tǒng)計(jì)參數(shù)模型算法,給語(yǔ)音合成的效果帶來(lái)顯著的提升。但是相對(duì)來(lái)說(shuō),序列-到-序列的模型系統(tǒng)訓(xùn)練,需要大量的的訓(xùn)練數(shù)據(jù)集以及計(jì)算資源來(lái)進(jìn)行模型的學(xué)習(xí),且在推理階段也很難做到高效率的語(yǔ)音合成。一些系統(tǒng)嘗試在序列-到-序列的模型基礎(chǔ)上,用不同的模型結(jié)構(gòu)的技巧來(lái)降低計(jì)算資源上的壓力,例如通過(guò)在編碼-解碼階段采用卷積神經(jīng)網(wǎng)絡(luò),這個(gè)模型能夠快速的訓(xùn)練,但是問(wèn)題是仍舊需要序列推理,這個(gè)相對(duì)來(lái)說(shuō)推理效率還是比較低的。為了避免序列化的推理階段,一些模型采用了自注意力機(jī)制,來(lái)并行化頻譜生成的結(jié)構(gòu),但是注意力層的訓(xùn)練階段是十分困難并且耗時(shí)的,目前為止缺乏一種能夠同時(shí)做到高效訓(xùn)練、高效推理和高品質(zhì)的語(yǔ)音合成模型。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì),以解決目前缺乏一種能夠同時(shí)做到高效訓(xùn)練,高效推理和高品質(zhì)的語(yǔ)音合成模型的技術(shù)問(wèn)題。
在本發(fā)明的一個(gè)方面,提供了一種基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法,包括以下步驟:
對(duì)第一音素序列進(jìn)行編碼,得到第一音素編碼值;
對(duì)第一音素編碼值進(jìn)行時(shí)長(zhǎng)預(yù)測(cè)處理,得到第一發(fā)音時(shí)長(zhǎng)預(yù)測(cè)值;
基于第一發(fā)音時(shí)長(zhǎng)預(yù)測(cè)值對(duì)第一音素序列中的每個(gè)音素進(jìn)行擴(kuò)展處理,得到第一音素序列中的每個(gè)音素的擴(kuò)展特征;
將第一音素序列中的每個(gè)音素的擴(kuò)展特征變換為第一梅爾頻譜值;
通過(guò)訓(xùn)練好的教師神經(jīng)網(wǎng)絡(luò)提供的隱變量以及第一梅爾頻譜值對(duì)學(xué)生神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練至學(xué)生神經(jīng)網(wǎng)絡(luò)的第一損失函數(shù)收斂時(shí),得到訓(xùn)練好的學(xué)生神經(jīng)網(wǎng)絡(luò)。
在本發(fā)明的另一個(gè)方面,提供了一種基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練裝置,包括以下模塊:
第一音素編碼模塊,用于對(duì)第一音素序列進(jìn)行編碼,得到第一音素編碼值;
時(shí)長(zhǎng)預(yù)測(cè)處理模塊,用于對(duì)第一音素編碼值進(jìn)行時(shí)長(zhǎng)預(yù)測(cè)處理,得到第一發(fā)音時(shí)長(zhǎng)預(yù)測(cè)值;
擴(kuò)展處理模塊,用于基于第一發(fā)音時(shí)長(zhǎng)預(yù)測(cè)值對(duì)第一音素序列中的每個(gè)音素進(jìn)行擴(kuò)展處理,得到第一音素序列中的每個(gè)音素的擴(kuò)展特征;
第一梅爾頻譜值變換模塊,用于將第一音素序列中的每個(gè)音素的擴(kuò)展特征變換為第一梅爾頻譜值;
學(xué)生神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊,用于通過(guò)訓(xùn)練好的教師神經(jīng)網(wǎng)絡(luò)提供的隱變量以及第一梅爾頻譜值對(duì)學(xué)生神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練至學(xué)生神經(jīng)網(wǎng)絡(luò)的第一損失函數(shù)收斂時(shí),得到訓(xùn)練好的學(xué)生神經(jīng)網(wǎng)絡(luò)。
在本發(fā)明的另一個(gè)方面,提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述基于深度學(xué)習(xí)的語(yǔ)音訓(xùn)練方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011593537.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 用于語(yǔ)音處理的方法與系統(tǒng)
- 一種語(yǔ)音識(shí)別測(cè)試系統(tǒng)及方法
- 用于語(yǔ)音識(shí)別的方法和裝置
- 一種語(yǔ)音消毒柜的控制方法及語(yǔ)音消毒柜
- 一種語(yǔ)音處理方法及裝置
- 混合語(yǔ)音識(shí)別方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 語(yǔ)音情緒識(shí)別方法、系統(tǒng)、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種具有語(yǔ)音識(shí)別功能的智能語(yǔ)音終端設(shè)備
- 語(yǔ)音增強(qiáng)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種聲紋鑒定語(yǔ)音重組方法和系統(tǒng)





