[發明專利]語音合成方法、裝置、存儲介質和電子設備有效
| 申請號: | 202010340815.X | 申請日: | 2020-04-26 |
| 公開(公告)號: | CN111653265B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 梁光;楊惠;舒景辰;譚星;張岱 | 申請(專利權)人: | 北京大米科技有限公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/047 |
| 代理公司: | 北京恒博知識產權代理有限公司 11528 | 代理人: | 李寧寧 |
| 地址: | 100123 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 存儲 介質 電子設備 | ||
本申請提供的語音合成方法、裝置、存儲介質和電子設備,確定輸入文本對應的音素序列;確定所述輸入文本對應的情緒特征;根據所述音素序列和所述情緒特征,合成所述輸入文本對應的語音。在上述語音合成方案中,可以根據輸入文本合成輸入文本對應的語音,而無需人工配音,降低了配音過程中所消耗的人工成本,并提升了配音的效率。
技術領域
本申請涉及語音處理技術領域,具體而言,涉及一種語音合成方法、裝置、存儲介質和電子設備。
背景技術
在動畫制作、視頻配音、網上答題等多種場合下,都需要提供匹配的聲音進行講解。通常情況下需要在專業的錄音棚中,由人工錄制對應的語音,以便在播放對應畫面時,可播放對應的聲音。但這種人工配音的方式耗費的人工成本較高,配音的效率也較低。
發明內容
為了解決上述問題,本申請實施例提供了一種語音合成方法、裝置和電子設備。
第一方面,本申請實施例提供了一種語音合成方法,包括以下步驟:
確定輸入文本對應的音素序列;
確定所述輸入文本對應的情緒特征;
根據所述音素序列和所述情緒特征,合成所述輸入文本對應的語音。
可選地,所述確定所述輸入文本對應的情緒特征,包括:
對所述輸入文本進行情緒識別,得到所述輸入文本對應的所述情緒特征。
可選地,所述確定所述輸入文本對應的情緒特征,包括:
根據所述輸入文本中的情緒標識,確定所述輸入文本對應的所述情緒特征。
可選地,所述輸入文本中包括多個播放角色的語音內容,所述確定輸入文本對應的音素序列,包括:
確定所述多個播放角色中每個播放角色的角色序列,所述角色序列為所述播放角色的語音內容對應的音素序列;
所述確定所述輸入文本對應的情緒特征,包括:
分別對所述輸入文本中每個播放角色的語音內容進行情緒識別,得到所述每個播放角色的情緒特征;
所述根據所述音素序列和所述情緒特征,合成所述輸入文本對應的語音,包括:
根據所述每個播放角色的角色序列和所述每個播放角色的情緒特征,合成所述每個播放角色對應的語音。
可選地,所述輸入文本中包括多個播放角色的語音內容,所述方法還包括:
確定所述多個播放角色中每個播放角色的音色特征;
所述根據所述每個播放角色的角色序列和所述每個播放角色的情緒特征,合成所述每個播放角色對應的語音,包括:
根據所述每個播放角色的角色序列、所述每個播放角色的情緒特征和所述每個播放角色的音色特征,合成所述每個播放角色對應的語音。
可選地,所述方法還包括:
確定播放角色的音色特征,所述播放角色用于播放所述輸入文本對應的語音;
所述根據所述音素序列和所述情緒特征,合成所述輸入文本對應的語音,包括:
根據所述音素序列、所述情緒特征和所述音色特征,合成所述輸入文本對應的語音。
可選地,所述根據所述音素序列、所述情緒特征和所述音色特征,合成所述輸入文本對應的語音,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大米科技有限公司,未經北京大米科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010340815.X/2.html,轉載請聲明來源鉆瓜專利網。





