[發(fā)明專利]一種語音合成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110602393.3 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113327574A | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設(shè)計(jì))人: | 康世胤;劉峰;陀得意;游于人;王潔;吳志勇 | 申請(專利權(quán))人: | 廣州虎牙科技有限公司;清華大學(xué)深圳國際研究生院 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L25/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 511400 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 合成 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
本發(fā)明實(shí)施例提供了一種語音合成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì),該方法包括:確定待合成語音的文本信息、說出所述文本信息的說話者及風(fēng)格,從文本信息提取表征語言學(xué)的信息,作為語言信息,確定DurIAN網(wǎng)絡(luò)為聲學(xué)模型、HiFi?GAN網(wǎng)絡(luò)為聲碼器,將語言信息輸入作為聲學(xué)模型的DurIAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合說話者在風(fēng)格下說文本信息時(shí)的頻譜特征,將頻譜特征輸入作為聲碼器的HiFi?GAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合說話者在風(fēng)格下說文本信息時(shí)的語音信號,將DurIAN網(wǎng)絡(luò)與HiFi?GAN網(wǎng)絡(luò)結(jié)合在TTS中使用,在低資源的情況下,可以保證克隆音色的魯棒性,提高語音合成的自然度和作為克隆目標(biāo)的說話者的音色的相似度。
技術(shù)領(lǐng)域
本發(fā)明實(shí)施例涉及語音處理的技術(shù)領(lǐng)域,尤其涉及一種語音合成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。
背景技術(shù)
TTS(Text To Speech,文字轉(zhuǎn)語音)旨在將文字轉(zhuǎn)換為語音,是人機(jī)對話的一部分,讓機(jī)器能夠說話,近年來,隨著聲學(xué)模型和聲碼器技術(shù)的飛速發(fā)展,TTS在語音助手,有聲讀物和口語對話系統(tǒng)等許多領(lǐng)域都發(fā)揮著重要作用。
TTS可以為擁有大量高質(zhì)量語音的說話者生成自然語音,幾乎可以以假亂真,但是,TTS仍然受限于訓(xùn)練集是大量單一說話人且表現(xiàn)力不夠豐富數(shù)據(jù)的的理想情況。
在低資源情況下,尤其是說話者的語言樣本稀少且錄音條件較差時(shí),語音合成的魯棒性較差,從而導(dǎo)致語音合成的自然度較差、說話人音色的相似度較差。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提出了一種語音合成方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì),以解決如何在低資源的情況下提高音色克隆的魯棒性的問題。
第一方面,本發(fā)明實(shí)施例提供了一種語音合成方法,包括:
確定待合成語音的文本信息、說出所述文本信息的說話者及風(fēng)格;
從所述文本信息提取表征語言學(xué)的特征,作為語言信息;
確定DurIAN網(wǎng)絡(luò)為聲學(xué)模型、HiFi-GAN網(wǎng)絡(luò)為聲碼器;
將所述語言信息輸入作為聲學(xué)模型的所述DurIAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合所述說話者在所述風(fēng)格下說所述文本信息時(shí)的頻譜特征;
將所述頻譜特征輸入作為聲碼器的所述HiFi-GAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合所述說話者在所述風(fēng)格下說所述文本信息時(shí)的語音信號。
第二方面,本發(fā)明實(shí)施例還提供了一種語音合成裝置,包括:
合成數(shù)據(jù)確定模塊,用于確定待合成語音的文本信息、說出所述文本信息的說話者及風(fēng)格;
語言信息提取模塊,用于從所述文本信息提取表征語言學(xué)的信息,作為語言信息;
合成系統(tǒng)確定模塊,用于確定DurIAN網(wǎng)絡(luò)為聲學(xué)模型、HiFi-GAN網(wǎng)絡(luò)為聲碼器;
頻譜特征生成模塊,用于將所述語言信息輸入作為聲學(xué)模型的所述DurIAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合所述說話者在所述風(fēng)格下說所述文本信息時(shí)的頻譜特征;
語音信號生成模塊,用于將所述頻譜特征輸入作為聲碼器的所述HiFi-GAN網(wǎng)絡(luò)中、轉(zhuǎn)換為符合所述說話者在所述風(fēng)格下說所述文本信息時(shí)的語音信號。
第三方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括:
一個(gè)或多個(gè)處理器;
存儲器,用于存儲一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如第一方面所述的語音合成方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州虎牙科技有限公司;清華大學(xué)深圳國際研究生院,未經(jīng)廣州虎牙科技有限公司;清華大學(xué)深圳國際研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110602393.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:顯示面板和顯示裝置
- 下一篇:一種散熱效果好的BBU豎裝機(jī)柜
- 同類專利
- 專利分類





