[發明專利]語音合成方法、裝置、存儲介質及電子設備有效
| 申請號: | 202011211084.5 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112309366B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 徐晨暢;潘俊杰 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/02 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 存儲 介質 電子設備 | ||
1.一種語音合成方法,其特征在于,所述方法包括:
獲取帶有目標音色標簽的待合成文本,所述目標音色標簽為第一發音人的音色標簽或者第二發音人的音色標簽;
將所述待合成文本輸入語音合成模型,以得到所述待合成文本對應的音頻信息,所述語音合成模型的訓練樣本包括標注有重音詞的第一樣本文本和所述第一發音人對所述第一樣本文本的第一樣本音頻,以及未標注重音詞的第二樣本文本和所述第二發音人對所述第二樣本文本的第二樣本音頻;
所述語音合成模型用于確定所述待合成文本中的重音詞,并根據所述重音詞以及所述目標音色標簽生成所述待合成文本對應的音頻信息。
2.根據權利要求1所述的方法,其特征在于,所述語音合成模型通過如下方式生成所述待合成文本對應的音頻信息:
確定所述待合成文本對應的音素序列;
根據所述重音詞,確定音素級別的重音標簽;
根據所述音素序列、所述重音標簽和所述目標音色標簽,生成所述待合成文本對應的音頻信息。
3.根據權利要求2所述的方法,其特征在于,所述根據所述音素序列、所述重音標簽和所述目標音色標簽,生成所述待合成文本對應的音頻信息,包括:
將所述音素序列進行向量化,以得到音素向量;
將所述重音標簽進行向量化,以得到重音標簽向量;
將所述目標音色標簽進行向量化,以得到音色標簽向量;
根據所述音素向量、所述重音標簽向量和所述音色標簽向量,確定目標音素向量;
根據所述目標音素向量確定梅爾頻譜;
將所述梅爾頻譜輸入聲碼器,以得到所述待合成文本對應的音頻信息。
4.根據權利要求3所述的方法,其特征在于,根據所述目標音素向量確定梅爾頻譜,包括:
將所述目標音素向量輸入編碼器,并將所述編碼器輸出的向量輸入譯碼器,以得到對應的梅爾頻譜,其中,所述編碼器用于確定輸入向量對應的音素序列中每一音素的發音信息,所述譯碼器用于根據輸入向量對應的每一音素的發音信息進行轉換處理,以得到所述每一音素對應的梅爾頻譜。
5.根據權利要求3所述的方法,其特征在于,所述根據所述音素向量、所述重音標簽向量和所述音色標簽向量,確定目標音素向量,包括:
將所述音素向量輸入編碼器,并根據所述編碼器輸出的向量、所述重音標簽向量和所述音色標簽向量,確定所述目標音素向量;
所述根據所述目標音素向量確定梅爾頻譜,包括:
將所述目標音素向量輸入譯碼器,以得到所述梅爾頻譜;
其中,所述編碼器用于確定輸入向量對應的音素序列中每一音素的發音信息,所述譯碼器用于根據輸入向量對應的每一音素的發音信息進行轉換處理,以得到所述每一音素對應的梅爾頻譜。
6.根據權利要求1-5任一項所述的方法,其特征在于,所述語音合成模型包括重音識別模塊,所述語音合成模型的訓練步驟包括:
通過所述重音識別模塊生成所述第二樣本文本對應的重音標簽;
將所述第一樣本文本和所述第二樣本文本依次作為目標樣本文本,對所述目標樣本文本對應的音素序列進行向量化,以得到音素級別的樣本音素向量;對所述目標樣本文本對應的重音標簽進行向量化,以得到樣本重音標簽向量;對所述目標樣本文本對應的音色標簽進行向量化,以得到樣本音色標簽向量;根據所述樣本音素向量、所述樣本重音標簽向量和所述樣本音色標簽向量,確定目標樣本音素向量;根據所述目標樣本音素向量確定樣本梅爾頻譜;根據所述樣本梅爾頻譜與所述目標樣本文本對應的樣本音頻的實際梅爾頻譜計算第一損失函數;
通過所述第一損失函數調整所述語音合成模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011211084.5/1.html,轉載請聲明來源鉆瓜專利網。





