[發明專利]語音合成方法、裝置、電子設備及可讀存儲介質在審

申請號：	202111090595.0	申請日：	2021-09-17
公開（公告）號：	CN113781995A	公開（公告）日：	2021-12-10
發明（設計）人：	蘇志霸;葉劍豪;周鴻斌;李林;任凱盟;賀雯迪;賀天威;譚芃菲;盧恒	申請（專利權）人：	上海喜馬拉雅科技有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/047
代理公司：	北京超凡宏宇專利代理事務所(特殊普通合伙) 11463	代理人：	張欣欣
地址：	201100 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置電子設備可讀存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請提出了一種語音合成方法、裝置、電子設備及可讀存儲介質，涉及計算機領域。該方法包括：通過編碼，獲得目標文本的文本信息對應的文本特征，其中，文本信息包括目標文本的音素序列；利用預先訓練好的時長預測模型，基于文本特征，獲得文本特征中每個音素的預測時長；基于預測時長對所述文本特征進行音素幀級展開，獲得幀序列；將幀序列輸入到解碼器中進行并行解碼，獲得各幀對應的聲學特征，其中，解碼器包括Unet網絡；根據各幀對應的聲學特征，得到目標文本對應的目標音頻。如此，可提高語音合成質量及速度。

技術領域

本申請涉及計算機技術領域，具體而言，涉及一種語音合成方法、裝置、電子設備及可讀存儲介質。

背景技術

在語音合成的實際應用場景中，受限于聲學模型中自回歸解碼器的合成速度，生產效率往往過低，并且自回歸解碼器的穩定性也比較差。在語音合成中，例如原版的DurIAN，自回歸解碼器需要一幀一幀地解碼，效率很慢，并且下一幀的輸出依賴之前的輸入，穩定性較差。因此，如何提高語音合成速度及質量，成為本領域技術人員亟需解決的技術問題。

發明內容

本申請實施例提供了一種語音合成方法、裝置、電子設備及可讀存儲介質，其能夠提高語音合成質量及語音合成質量。

本申請的實施例可以這樣實現：

第一方面，本申請實施例提供一種語音合成方法，包括：

通過編碼，獲得目標文本的文本信息對應的文本特征，其中，所述文本信息包括所述目標文本的音素序列；

利用預先訓練好的時長預測模型，基于所述文本特征，獲得所述文本特征中每個音素的預測時長；

基于所述預測時長對所述文本特征進行音素幀級展開，獲得幀序列；

將所述幀序列輸入到解碼器中進行并行解碼，獲得各幀對應的聲學特征，其中，所述解碼器包括Unet網絡；

根據各幀對應的聲學特征，得到所述目標文本對應的目標音頻。

第二方面，本申請實施例提供一種語音合成裝置，包括：

編碼模塊，用于通過編碼，獲得目標文本的文本信息對應的文本特征，其中，所述文本信息包括所述目標文本的音素序列；

時長預測模塊，用于利用預先訓練好的時長預測模型，基于所述文本特征，獲得所述文本特征中每個音素的預測時長；