[發明專利]語音合成方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202111090595.0 | 申請日: | 2021-09-17 |
| 公開(公告)號: | CN113781995A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 蘇志霸;葉劍豪;周鴻斌;李林;任凱盟;賀雯迪;賀天威;譚芃菲;盧恒 | 申請(專利權)人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/047 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張欣欣 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 電子設備 可讀 存儲 介質 | ||
本申請提出了一種語音合成方法、裝置、電子設備及可讀存儲介質,涉及計算機領域。該方法包括:通過編碼,獲得目標文本的文本信息對應的文本特征,其中,文本信息包括目標文本的音素序列;利用預先訓練好的時長預測模型,基于文本特征,獲得文本特征中每個音素的預測時長;基于預測時長對所述文本特征進行音素幀級展開,獲得幀序列;將幀序列輸入到解碼器中進行并行解碼,獲得各幀對應的聲學特征,其中,解碼器包括Unet網絡;根據各幀對應的聲學特征,得到目標文本對應的目標音頻。如此,可提高語音合成質量及速度。
技術領域
本申請涉及計算機技術領域,具體而言,涉及一種語音合成方法、裝置、電子設備及可讀存儲介質。
背景技術
在語音合成的實際應用場景中,受限于聲學模型中自回歸解碼器的合成速度,生產效率往往過低,并且自回歸解碼器的穩定性也比較差。在語音合成中,例如原版的DurIAN,自回歸解碼器需要一幀一幀地解碼,效率很慢,并且下一幀的輸出依賴之前的輸入,穩定性較差。因此,如何提高語音合成速度及質量,成為本領域技術人員亟需解決的技術問題。
發明內容
本申請實施例提供了一種語音合成方法、裝置、電子設備及可讀存儲介質,其能夠提高語音合成質量及語音合成質量。
本申請的實施例可以這樣實現:
第一方面,本申請實施例提供一種語音合成方法,包括:
通過編碼,獲得目標文本的文本信息對應的文本特征,其中,所述文本信息包括所述目標文本的音素序列;
利用預先訓練好的時長預測模型,基于所述文本特征,獲得所述文本特征中每個音素的預測時長;
基于所述預測時長對所述文本特征進行音素幀級展開,獲得幀序列;
將所述幀序列輸入到解碼器中進行并行解碼,獲得各幀對應的聲學特征,其中,所述解碼器包括Unet網絡;
根據各幀對應的聲學特征,得到所述目標文本對應的目標音頻。
第二方面,本申請實施例提供一種語音合成裝置,包括:
編碼模塊,用于通過編碼,獲得目標文本的文本信息對應的文本特征,其中,所述文本信息包括所述目標文本的音素序列;
時長預測模塊,用于利用預先訓練好的時長預測模型,基于所述文本特征,獲得所述文本特征中每個音素的預測時長;
音素幀級展開模塊,用于基于所述預測時長對所述文本特征進行音素幀級展開,獲得幀序列;
解碼模塊,用于將所述幀序列輸入到解碼器中進行并行解碼,獲得各幀對應的聲學特征,其中,所述解碼器包括Unet網絡;
合成模塊,用于根據各幀對應的聲學特征,得到所述目標文本對應的目標音頻。
第三方面,本申請實施例提供一種電子設備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的機器可執行指令,所述處理器可執行所述機器可執行指令以實現前述實施方式所述的語音合成方法。
第四方面,本申請實施例提供一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如前述實施方式所述的語音合成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司,未經上海喜馬拉雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111090595.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種活性染料數碼印花墨水及用途
- 下一篇:錄音方法、裝置、存儲介質及電子設備





