[發明專利]語音合成方法、裝置、設備及存儲介質有效
| 申請號: | 202011607966.3 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112802444B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 周良;孟廷;侯秋俠;劉丹;江源;胡亞軍 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/08;G10L15/16 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 付麗 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種語音合成方法、裝置、設備及存儲介質,本申請在對待合成的原始文本進行語音合成的過程中,參考了與原始文本存在相匹配的文本片段的匹配文本對應的輔助合成特征,該輔助合成特征為基于匹配文本對應的發音音頻所確定的用于輔助語音合成的特征,本申請通過參考匹配文本對應的輔助合成特征,可以利用匹配文本對應的發音音頻中發音信息輔助對原始文本進行語音合成,豐富了原始文本語音合成時所參考的信息,進而提高了原始文本的語音合成質量。本申請方案可以適用于帶前端預處理和不帶前端預處理兩種類型的語音合成系統,輔助合成特征可以作為前端文本分析結果也可以直接輔助語音合成系統進行語音合成,均能夠提高合成語音的質量。
技術領域
本申請涉及語音處理處理技術領域,更具體的說,是涉及一種語音合成方法、裝置、設備及存儲介質。
背景技術
近些年,隨著信息的發展及人工智能的興起,人機交互變得越來越重要。其中語音合成是國內外人機交互研究的熱點。語音合成即將輸入的待合成的原始文本合成為語音輸出的過程。
傳統的語音合成模型一般為基于端到端的語音合成方案,即直接使用訓練文本及對應的語音數據或波形數據來訓練語音合成模型,訓練完畢的語音合成模型,基于輸入的待合成的原始文本,即可輸出合成的語音,或者輸出波形數據,進而基于波形數據得到對應的合成語音。
現有語音合成方案僅參考了原始文本進行語音合成,導致合成語音容易出錯,合成效果不佳。
發明內容
鑒于上述問題,提出了本申請以便提供一種語音合成方法、裝置、設備及存儲介質,以提高合成語音的質量。具體方案如下:
在本申請的第一方面,提供了一種語音合成方法,包括:
獲取待合成的原始文本;
獲取匹配文本對應的輔助合成特征,所述匹配文本與所述原始文本存在相匹配的文本片段,所述輔助合成特征為基于所述匹配文本對應的發音音頻所確定的用于輔助語音合成的特征;
參考所述輔助合成特征,對所述原始文本進行語音合成,得到合成語音。
優選地,根據權利要求1所述的方法,其特征在于,所述獲取匹配文本對應的輔助合成特征,包括:
獲取與所述原始文本存在相匹配的文本片段的匹配文本;
獲取基于所述匹配文本對應的發音音頻所確定的輔助合成特征。
優選地,所述輔助合成特征包括:
基于所述匹配文本對應的發音音頻所確定的,所述匹配文本對應的音素序列;
和/或,
基于所述匹配文本對應的發音音頻所確定的,所述匹配文本對應的韻律信息;
和/或,
基于所述匹配文本對應的發音音頻所確定的,所述匹配文本對應的音素級韻律編碼;
和/或,
所述匹配文本對應的發音音頻的聲學特征。
優選地,所述獲取與所述原始文本存在相匹配的文本片段的匹配文本,包括:
在預配置的模板文本中,確定與所述原始文本內的文本片段相匹配的匹配文本。
優選地,所述獲取與所述原始文本存在相匹配的文本片段的匹配文本,包括:
獲取上傳數據中的上傳文本,作為所述匹配文本,所述上傳數據還包括所述上傳文本對應的發音音頻,所述上傳文本與所述原始文本存在相匹配的文本片段。
優選地,所述預配置的模板文本包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011607966.3/2.html,轉載請聲明來源鉆瓜專利網。





