[發明專利]語音合成方法、裝置、計算機可讀介質及電子設備在審

申請號：	202010082940.5	申請日：	2020-02-07
公開（公告）號：	CN111292719A	公開（公告）日：	2020-06-16
發明（設計）人：	殷翔	申請（專利權）人：	北京字節跳動網絡技術有限公司
主分類號：	G10L13/08	分類號：	G10L13/08;G10L13/10;G10L25/18;G10L25/24;G10L25/30
代理公司：	北京英創嘉友知識產權代理事務所(普通合伙) 11447	代理人：	賈會玲
地址：	100041 北京市石景山區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置計算機可讀介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語音合成方法，其特征在于，包括：

獲取待合成文本的語音特征信息，所述語音特征信息包括音素、聲調、分詞以及韻律邊界；

根據所述語音特征信息進行語音合成，獲得與所述待合成文本對應的第一音頻信息。

2.根據權利要求1所述的方法，其特征在于，所述根據所述語音特征信息進行語音合成，獲得與所述待合成文本對應的第一音頻信息，包括：

將所述語音特征信息輸入至預設語音合成模型中，得到與所述待合成文本對應的梅爾頻譜特征信息；

通過聲碼器對所述梅爾頻譜特征信息進行合成，以獲得所述第一音頻信息。

3.根據權利要求2所述的方法，其特征在于，所述預設語音合成模型包括編碼網絡、注意力網絡以及解碼網絡，其中，所述編碼網絡用于獲取所述語音特征信息對應的表示序列，所述注意力網絡用于根據所述表示序列，生成定長的語義表征；所述解碼網絡用于根據所述語義表征，獲得所述梅爾頻譜特征信息。

4.根據權利要求3所述的方法，其特征在于，所述編碼網絡包括嵌入層、預處理網絡子模型和CBHG子模型，其中，所述嵌入層用于將所述語音特征信息轉換為詞向量；所述預處理網絡子模型用于對所述詞向量進行非線性變換，所述CBHG子模型用于根據非線性變換后的詞向量，獲得所述表示序列，其中，所述CBHG子模型的卷積層為帶孔卷積。

5.根據權利要求3所述的方法，其特征在于，所述注意力網絡為基于高斯混合模型的注意力網絡。

6.根據權利要求1-5中任一項所述的方法，其特征在于，所述方法還包括：

將所述第一音頻信息與目標背景音樂進行合成，得到第二音頻信息。

7.根據權利要求6所述的方法，其特征在于，在所述將所述第一音頻信息與目標背景音樂進行合成的步驟之前，所述方法還包括：

根據所述待合成文本的文本信息和/或所述語音特征信息，確定所述待合成文本對應的使用場景信息；

根據所述使用場景信息，確定與所述使用場景信息相匹配的所述目標背景音樂。

8.一種語音合成裝置，其特征在于，包括：

獲取模塊，用于獲取待合成文本的語音特征信息，所述語音特征信息包括音素、聲調、分詞以及韻律邊界；

語音合成模塊，根據所述獲取模塊獲得的所述語音特征信息進行語音合成，獲得與所述待合成文本對應的第一音頻信息。

9.一種計算機可讀介質，其上存儲有計算機程序，其特征在于，該程序被處理裝置執行時實現權利要求1-7中任一項所述方法的步驟。

10.一種電子設備，其特征在于，包括：

存儲裝置，其上存儲有一個或多個計算機程序；