[發明專利]一種語音合成方法及裝置有效
| 申請號: | 202010749702.5 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN111916052B | 公開(公告)日: | 2021-04-27 |
| 發明(設計)人: | 馮大航;陳孝良 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/02;G10L15/00;G10L17/00 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃邃 |
| 地址: | 100080 北京市海淀區北四*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 裝置 | ||
1.一種語音合成方法,其特征在于,所述方法包括:
獲取多個用戶的語音;
對所述多個用戶的語音進行語種識別,確定每個用戶的語音對應的語種,以及對相應用戶的語音進行聲紋識別,確定所述每個用戶的聲紋特征;
若確定的語種中存在當前地區的通用語種,則將所述通用語種確定為目標語種;所述當前地區為所述用戶當前所處的地區;
若確定的語種中不存在所述通用語種,則將語種占比大于預設占比的語種確定為目標語種;
計算所述每個用戶的聲紋特征與存儲的樣本聲紋特征的相似度;
若所述相似度中存在至少兩個相似度不大于第一閾值,且大于第二閾值,則按照相似度從大到小的順序,將所述至少兩個相似度進行排序;獲取排序后的所述至少兩個相似度中在前的預設數量的相似度;將所述預設數量的相似度對應的樣本聲紋特征進行加權運算,得到加權聲紋特征;若所述加權聲紋特征與所述用戶的聲紋特征的相似度大于所述第一閾值,則將所述加權聲紋特征確定為所述目標合成語音的目標聲紋特征;
以所述目標語種和所述目標聲紋特征,輸出目標合成語音。
2.如權利要求1所述的方法,其特征在于,所述方法還包括:
若所述多個用戶的聲紋特征包括相同的聲紋類型,則執行步驟:根據所述每個用戶的聲紋特征與存儲的樣本聲紋特征的相似度,將滿足預設相似度條件的樣本聲紋特征確定為所述目標合成語音的目標聲紋特征;
若所述多個用戶的聲紋特征包括不同的聲紋類型,則將預設聲紋特征確定為所述目標合成語音的目標聲紋特征。
3.如權利要求1所述的方法,其特征在于,所述方法應用在安裝語音交互系統的電梯中。
4.一種語音合成裝置,其特征在于,所述裝置包括:獲取單元、識別單元、確定單元、計算單元和輸出單元;
所述獲取單元,用于獲取多個用戶的語音;
所述識別單元,用于對所述多個用戶的語音進行語種識別,確定每個用戶的語音對應的語種,以及對相應用戶的語音進行聲紋識別,確定所述每個用戶的聲紋特征;
所述確定單元,用于若確定的語種中存在當前地區的通用語種,則將所述通用語種確定為目標語種;所述當前地區為所述用戶當前所處的地區;
以及,若確定的語種中不存在所述通用語種,則將語種占比大于預設占比的語種確定為目標語種;
所述計算單元,用于計算所述每個用戶的聲紋特征與存儲的樣本聲紋特征的相似度;
所述確定單元,還用于若所述相似度中存在至少兩個相似度不大于第一閾值,且大于第二閾值,則按照相似度從大到小的順序,將所述至少兩個相似度進行排序;獲取排序后的所述至少兩個相似度中在前的預設數量的相似度;將所述預設數量的相似度對應的樣本聲紋特征進行加權運算,得到加權聲紋特征;若所述加權聲紋特征與所述用戶的聲紋特征的相似度大于所述第一閾值,則將所述加權聲紋特征確定為所述語音的目標聲紋特征;
所述輸出單元,用于以所述目標語種和所述目標聲紋特征,輸出目標合成語音。
5.一種電子設備,其特征在于,所述電子設備包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
存儲器,用于存放計算機程序;
處理器,用于執行存儲器上所存儲的程序時,實現權利要求1-3任一所述的方法步驟。
6.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質內存儲有計算機程序,所述計算機程序被處理器執行時實現權利要求1-3任一所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010749702.5/1.html,轉載請聲明來源鉆瓜專利網。





