[發明專利]高表現力的語音合成方法和裝置有效
| 申請號: | 201410645715.2 | 申請日: | 2014-11-12 |
| 公開(公告)號: | CN104392716B | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | 李秀林;賈磊;康永國 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/027 | 分類號: | G10L13/027;G10L13/08 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表現力 語音 合成 方法 裝置 | ||
1.一種高表現力的語音合成方法,其特征在于,包括:
訓練用于獲取語料庫中不同上下文對應的高斯混合聲學模型的決策樹;
對語料庫中不同上下文的音子序列中音子包含的狀態的語音進行統計,獲取語料庫中不同上下文的音子序列中音子包含的狀態對應的高斯混合聲學模型中包含的高斯聲學模型的均值、方差以及對應的加權值,將統計得到的均值、方差以及加權值作為所述高斯混合聲學模型的參數,生成所述高斯混合聲學模型;
統計在不同上下文中所述高斯混合聲學模型中各個高斯聲學模型之間的轉移概率;
將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文;
根據所述決策樹,獲取所述狀態的上下文中所述狀態對應的高斯混合聲學模型,所述高斯混合聲學模型包含至少兩個分量,每一個分量相互獨立并服從高斯分布,每一個分量是一個獨立的高斯聲學模型,將所述高斯混合聲學模型中包含的高斯聲學模型的加權值作為節點度量,將所述高斯聲學模型之間的轉移概率作為路徑度量,通過求和計算狀態序列的不同路徑的度量值,將所述度量值最大的一條路徑作為所述狀態序列的最佳路徑,通過路徑回溯選取所述狀態序列中各個狀態對應的高斯聲學模型;
根據所選擇的高斯聲學模型生成聲學參數,并根據生成的聲學參數合成語音。
2.根據權利要求1所述的方法,其特征在于,所述聲學參數包括:合成語音的基頻、譜特征以及時長中的至少一個。
3.一種高表現力的語音合成裝置,其特征在于,包括:
決策樹訓練模塊,用于訓練用于獲取語料庫不同上下文對應的高斯混合聲學模型的決策樹;
混合模型訓練模塊,所述混合模型訓練模塊包括:參數統計單元,用于對語料庫中不同上下文的音子序列中音子包含的狀態的語音進行統計,獲取語料庫中不同上下文的音子序列中音子包含的狀態對應的高斯混合聲學模型中包含的高斯聲學模型的均值、方差以及對應的加權值;模型生成單元,用于將統計得到的均值、方差以及加權值作為所述高斯混合聲學模型的參數,生成所述高斯混合聲學模型;
轉移概率統計模塊,用于統計在不同上下文中所述高斯混合聲學模型中各個高斯聲學模型之間的轉移概率;
上下文獲取模塊,用于將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文;
高斯聲學模型選取模塊,用于根據所述狀態的上下文,基于維特比算法從所述狀態對應的包含至少兩個高斯聲學模型的高斯混合聲學模型中選擇一個高斯聲學模型,作為合成語音的高斯聲學模型;
語音合成模塊,用于根據所選擇的高斯聲學模型生成聲學參數,并根據生成的聲學參數合成語音;
其中,所述高斯聲學模型選取模塊包括:
混合模型獲取單元,用于根據所述決策樹,獲取所述狀態的上下文中所述狀態對應的高斯混合聲學模型,所述高斯混合聲學模型包含至少兩個分量,每一個分量相互獨立并服從高斯分布,每一個分量是一個獨立的高斯聲學模型;
度量值求解單元,用于將所述高斯混合聲學模型中包含的高斯聲學模型的加權值作為節點度量,將所述高斯聲學模型之間的轉移概率作為路徑度量,通過求和計算狀態序列的不同路徑的度量值;
最佳路徑獲取單元,用于將所述度量值最大的一條路徑作為所述狀態序列的最佳路徑;
路徑回溯單元,用于通過路徑回溯選取所述狀態序列中各個狀態對應的高斯聲學模型。
4.根據權利要求3所述的裝置,其特征在于,所述聲學參數包括:合成語音的基頻、譜特征以及時長中的至少一個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410645715.2/1.html,轉載請聲明來源鉆瓜專利網。





