[發明專利]語音合成方法、裝置、設備和介質有效
| 申請號: | 202010544845.2 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111667811B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 崔璐 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/63;G10L25/51;G06F40/30;G06F40/295 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 設備 介質 | ||
本申請實施例公開了一種語音合成方法、裝置、設備和介質,涉及語音技術、自然語言處理技術和深度學習技術。其中,該語音合成方法包括:獲取目標對白語句,并確定目標對白語句涉及的目標人物角色;基于目標對白語句,確定目標人物角色的描述信息;其中,描述信息包括人設標簽、角色關系、角色身份和對話場景中的至少一種;利用目標對白語句和目標人物角色的描述信息,確定目標人物角色的角色情感;如果滿足語音合成觸發條件,則依據目標人物角色和目標人物角色的角色情感,對目標對白語句進行語音合成。本申請實施例可以提高語音播報的角色代入感、畫面感。
技術領域
本申請實施例涉及計算機技術,具體涉及語音技術、自然語言處理技術和深度學習技術,尤其涉及一種語音合成方法、裝置、設備和介質。
背景技術
語音合成技術的發展,不經為人們日常生活帶來極大的便利性,例如支持語音交互的智能家電被普遍推廣,同時,也改變了人們觀看電子書的方式。越來越多的電子書產品支持文本的語音播報,聽書成為人們利用碎片時間看書的一種新方式。
然而,目前大多數電子書的語音播報,播報語音較為單一,且語音的情感表現力不足,不能為聽眾從視覺上帶來角色畫面感,也無法引起聽眾對角色的代入感。
發明內容
本申請實施例提供了一種語音合成方法、裝置、設備和介質,以提高語音播報的角色代入感、畫面感。
根據本申請實施例的一方面,提供了一種語音合成方法,包括:
獲取目標對白語句,并確定所述目標對白語句涉及的目標人物角色;
基于所述目標對白語句,確定所述目標人物角色的描述信息;其中,所述描述信息包括人設標簽、角色關系、角色身份和對話場景中的至少一種;
利用所述目標對白語句和所述目標人物角色的描述信息,確定所述目標人物角色的角色情感;
如果滿足語音合成觸發條件,則依據所述目標人物角色和所述目標人物角色的角色情感,對所述目標對白語句進行語音合成。
根據本申請實施例的另一方面,提供了一種語音合成裝置,包括:
角色確定模塊,用于獲取目標對白語句,并確定所述目標對白語句涉及的目標人物角色;
描述信息確定模塊,用于基于所述目標對白語句,確定所述目標人物角色的描述信息;其中,所述描述信息包括人設標簽、角色關系、角色身份和對話場景中的至少一種;
角色情感確定模塊,用于利用所述目標對白語句和所述目標人物角色的描述信息,確定所述目標人物角色的角色情感;
語音合成模塊,用于如果滿足語音合成觸發條件,則依據所述目標人物角色和所述目標人物角色的角色情感,對所述目標對白語句進行語音合成。
根據本申請實施例的另一方面,提供了一種電子設備,包括:
至少一個處理器;以及
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如本申請實施例任一所述的語音合成方法。
根據本申請實施例的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,所述計算機指令用于使所述計算機執行如本申請實施例任一所述的語音合成方法。
根據本申請實施例的技術方案,通過確定對白語句涉及人物角色以及人物角色的描述信息,根據對白語句以及人物角色的描述信息綜合確定人物角色的角色情感,用于合成富有情感的角色化對白語音,提高了語音播報的角色代入感、畫面感。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544845.2/2.html,轉載請聲明來源鉆瓜專利網。





