[發(fā)明專利]語音合成方法及相關設備有效
| 申請?zhí)枺?/td> | 201810857240.1 | 申請日: | 2018-07-28 |
| 公開(公告)號: | CN108962217B | 公開(公告)日: | 2021-07-16 |
| 發(fā)明(設計)人: | 包飛;鄧利群;孫文華;曾毓瓏;魏建生;胡月志;黃茂勝;黃雪妍;李志剛 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L17/00;G10L17/04;G10L17/22 |
| 代理公司: | 廣州三環(huán)專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 相關 設備 | ||
1.一種語音合成方法,其特征在于,所述方法包括:
根據(jù)用戶的當前輸入語音確定所述用戶的身份;
根據(jù)所述當前輸入語音從預設的聲學模型庫中獲得聲學模型,所述聲學模型的預設信息包括預設音速、預設音量、預設音高、預設音色、預設語調和預設韻律節(jié)奏中的多個;
根據(jù)所述用戶的身份確定基礎語音合成信息,所述基礎語音合成信息包括所述預設音速、所述預設音量和所述預設音高中的一個或多個的變化量;
根據(jù)所述當前輸入語音確定回復文本;
根據(jù)所述回復文本、所述當前輸入語音的上下文信息確定強化語音合成信息,所述強化語音合成信息包括所述預設音色、所述預設語調和所述預設韻律節(jié)奏中的一個或多個的變化量;所述上下文信息表示所述當前輸入語音的上下文語境或者所述當前輸入語音之前的歷史輸入語音;
通過所述聲學模型,根據(jù)所述基礎語音合成信息和所述強化語音合成信息對所述回復文本進行語音合成。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述回復文本、上下文信息確定強化語音合成信息,包括:
根據(jù)所述回復文本確定所述回復文本的文學樣式特征,所述文學樣式特征包括所述回復文本中的部分或全部內容的句子個數(shù)、每句字數(shù)和句子字數(shù)的排列順序中的一個或多個;
根據(jù)所述回復文本的文學樣式特征選取對應的預設韻律節(jié)奏的變化量;其中,所述文學樣式特征與所述預設韻律節(jié)奏的變化量之間具有對應關系,所述預設韻律節(jié)奏的變化量表示所述回復文本的部分或全部內容中的字符的朗讀時長、朗讀停頓位置、朗讀停頓時間、重音各自的變化。
3.根據(jù)權利要求1所述的方法,其特征在于,所選取的聲學模型的所述預設信息還包括語言風格特征,所述語言風格特征具體包括口頭禪、對特定場景的應答方式、智慧類型、性格類型、夾雜的流行語言或方言、對特定人物的稱謂中的一個或多個。
4.根據(jù)權利要求1-3任一項所述的方法,其特征在于,
所述聲學模型庫中的聲學模型有多個;所述根據(jù)所述當前輸入語音從預設的聲學模型庫中獲得聲學模型,包括:
根據(jù)所述用戶的身份確定所述用戶的喜好;
根據(jù)所述用戶的喜好從所述聲學模型庫中選取聲學模型。
5.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述聲學模型庫中的聲學模型有多個,每個聲學模型分別具有一個聲模標識;所述根據(jù)所述當前輸入語音從預設的聲學模型庫中獲得聲學模型包括:
根據(jù)所述當前輸入語音的內容,確定與所述當前輸入語音的內容相關的聲模標識;
從所述聲學模型庫中選取對應于所述聲模標識的聲學模型。
6.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述聲學模型庫中的聲學模型有多個;
所述根據(jù)所述當前輸入語音從預設的聲學模型庫中獲得聲學模型包括:
根據(jù)所述用戶的身份選取所述聲學模型中的多個聲學模型;
確定所述多個聲學模型中的各個聲學模型的權重值;其中,所述各個聲學模型的權重值是用戶預先設置的,或者,所述各個聲學模型的權重值是預先根據(jù)所述用戶的喜好而確定的;
將所述各個聲學模型基于所述權重值進行融合,獲得融合后的聲學模型。
7.根據(jù)權利要求1-3任一項所述的方法,其特征在于,所述根據(jù)用戶的當前輸入語音確定所述用戶的身份之前,還包括:
根據(jù)所述用戶的歷史輸入語音確定目標字符與用戶偏好讀音之間的對應關系,將所述目標字符與用戶偏好讀音之間的對應關系關聯(lián)所述用戶的身份;
相應的,所述通過所述聲學模型,根據(jù)所述基礎語音合成信息和所述強化語音合成信息對所述回復文本進行語音合成,包括:
當所述回復文本中存在與所述用戶的身份關聯(lián)的所述目標字符時,通過所述聲學模型,根據(jù)所述目標字符與用戶偏好讀音之間的對應關系、所述基礎語音合成信息和所述強化語音合成信息對所述回復文本進行語音合成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810857240.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





