[發明專利]語音合成方法、裝置、設備及存儲介質有效

申請號：	202011607966.3	申請日：	2020-12-30
公開（公告）號：	CN112802444B	公開（公告）日：	2023-07-25
發明（設計）人：	周良;孟廷;侯秋俠;劉丹;江源;胡亞軍	申請（專利權）人：	科大訊飛股份有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/08;G10L15/16
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	付麗
地址：	230088 安徽***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種語音合成方法、裝置、設備及存儲介質，本申請在對待合成的原始文本進行語音合成的過程中，參考了與原始文本存在相匹配的文本片段的匹配文本對應的輔助合成特征，該輔助合成特征為基于匹配文本對應的發音音頻所確定的用于輔助語音合成的特征，本申請通過參考匹配文本對應的輔助合成特征，可以利用匹配文本對應的發音音頻中發音信息輔助對原始文本進行語音合成，豐富了原始文本語音合成時所參考的信息，進而提高了原始文本的語音合成質量。本申請方案可以適用于帶前端預處理和不帶前端預處理兩種類型的語音合成系統，輔助合成特征可以作為前端文本分析結果也可以直接輔助語音合成系統進行語音合成，均能夠提高合成語音的質量。

技術領域

本申請涉及語音處理處理技術領域，更具體的說，是涉及一種語音合成方法、裝置、設備及存儲介質。

背景技術

近些年，隨著信息的發展及人工智能的興起，人機交互變得越來越重要。其中語音合成是國內外人機交互研究的熱點。語音合成即將輸入的待合成的原始文本合成為語音輸出的過程。

傳統的語音合成模型一般為基于端到端的語音合成方案，即直接使用訓練文本及對應的語音數據或波形數據來訓練語音合成模型，訓練完畢的語音合成模型，基于輸入的待合成的原始文本，即可輸出合成的語音，或者輸出波形數據，進而基于波形數據得到對應的合成語音。

現有語音合成方案僅參考了原始文本進行語音合成，導致合成語音容易出錯，合成效果不佳。

發明內容

鑒于上述問題，提出了本申請以便提供一種語音合成方法、裝置、設備及存儲介質，以提高合成語音的質量。具體方案如下：

在本申請的第一方面，提供了一種語音合成方法，包括：

獲取待合成的原始文本；

獲取匹配文本對應的輔助合成特征，所述匹配文本與所述原始文本存在相匹配的文本片段，所述輔助合成特征為基于所述匹配文本對應的發音音頻所確定的用于輔助語音合成的特征；

參考所述輔助合成特征，對所述原始文本進行語音合成，得到合成語音。