[發明專利]語音合成方法和裝置有效
| 申請號: | 201610049832.1 | 申請日: | 2016-01-25 |
| 公開(公告)號: | CN105529023B | 公開(公告)日: | 2019-09-03 |
| 發明(設計)人: | 蓋于濤;康永國;張少飛 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/033;G10L13/047;G10L13/10 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 | ||
1.一種語音合成方法,其特征在于,包括:
對要合成的文本進行文本特征提取,獲取上下文特征信息;
獲取預先生成的模型,所述模型是根據訓練樣本的上下文特征信息和變換后的聲學參數進行訓練后生成的,所述變換后的聲學參數包括多個韻律層級的基頻參數;
根據所述模型,確定與所述上下文特征信息對應的模型輸出參數,所述模型輸出參數包括:多個韻律層級的基頻參數;
對所述多個韻律層級的基頻參數進行基頻重構;
根據基頻重構后的參數和所述模型輸出參數中的其他參數得到合成語音;
所述根據所述模型輸出參數進行基頻重構,包括:
獲取設置的每個韻律層級的基頻參數對應的權重;
根據所述權重對每個韻律層級的基頻參數進行加權求和運算。
2.根據權利要求1所述的方法,其特征在于,還包括:
對訓練樣本的文本進行文本特征提取,獲取訓練樣本的上下文特征信息;
對訓練樣本的語音進行聲學特征提取,得到訓練樣本的聲學參數;
對所述聲學參數進行基頻的韻律層級變換,使得變換后的聲學參數包括多個韻律層級的基頻參數;
根據訓練樣本的上下文特征信息和變換后的聲學參數,訓練得到所述模型。
3.根據權利要求2所述的方法,其特征在于,所述基頻的韻律層級變換包括:基頻小波變換。
4.根據權利要求2所述的方法,其特征在于,所述模型是神經網絡模型,以及,在訓練神經網絡模型時采用的目標函數包括:設置的不同參數的權重。
5.根據權利要求2所述的方法,其特征在于,所述變換后的聲學參數還包括:譜參數。
6.一種語音合成裝置,其特征在于,包括:
第一獲取模塊,用于對要合成的文本進行文本特征提取,獲取上下文特征信息;
第二獲取模塊,用于獲取預先生成的模型,所述模型是根據訓練樣本的上下文特征信息和變換后的聲學參數進行訓練后生成的,所述變換后的聲學參數包括多個韻律層級的基頻參數;
確定模塊,用于根據所述模型,確定與所述上下文特征信息對應的模型輸出參數,所述模型輸出參數包括:多個韻律層級的基頻參數;
基頻重構模塊,用于對所述多個韻律層級的基頻參數進行基頻重構;
合成模塊,用于根據基頻重構后的參數和所述模型輸出參數中的其他參數得到合成語音;
所述基頻重構模塊具體用于:
獲取設置的每個韻律層級的基頻參數對應的權重;
根據所述權重對每個韻律層級的基頻參數進行加權求和運算。
7.根據權利要求6所述的裝置,其特征在于,還包括:
訓練模塊,用于對訓練樣本的文本進行文本特征提取,獲取訓練樣本的上下文特征信息;對訓練樣本的語音進行聲學特征提取,得到訓練樣本的聲學參數;對所述聲學參數進行基頻的韻律層級變換,使得變換后的聲學參數包括多個韻律層級的基頻參數;根據訓練樣本的上下文特征信息和變換后的聲學參數,訓練得到所述模型。
8.根據權利要求7所述的裝置,其特征在于,所述模型是神經網絡模型,以及,在訓練神經網絡模型時采用的目標函數包括:設置的不同參數的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610049832.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用聲波換能器的泄漏檢測
- 下一篇:柵極驅動電路及其驅動方法和顯示裝置





