[發明專利]一種基于混合隱馬爾可夫模型的語音合成系統無效
| 申請號: | 200710304225.6 | 申請日: | 2007-12-26 |
| 公開(公告)號: | CN101471071A | 公開(公告)日: | 2009-07-01 |
| 發明(設計)人: | 陶建華;于劍;張蒙 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/06;G10L13/08 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 梁愛榮 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 隱馬爾可夫 模型 語音 合成 系統 | ||
技術領域
本發明涉及一種語音合成系統,具體地涉及基于混合隱馬爾可夫模型的語音合成系統。
背景技術
語音合成系統又稱文語轉換系統(TTS系統),它的主要功能是將計算機接收到的或輸入的任意文字串轉換成語音輸出。傳統的語音合成系統是基于單元拼接的,其音質表現好,但是所需音庫資源比較大,導致其在嵌入式設備上的應用遇到瓶頸。而基于隱馬爾可夫模型的語音合成系統從本質上來說是一種參數合成系統,具有靈活性高和所需存儲資源小的優點。但是,由于其參數化的本質,其音質表現通常大大遜于基于拼接的合成系統,這也正是當前基于隱馬爾可夫模型的語音合成系統難以大規模應用的瓶頸所在。
基于隱馬爾可夫模型的語音合成系統音質表現差的原因主要是來自于模型生成頻譜參數的兩個過平滑問題:時域過平滑問題和頻域過平滑問題。頻域上的過平滑現象導致合成的語音共振峰不清晰,進而導致了聽感上的模糊。產生這種現象的原因是在傳統基于隱馬爾可夫語音合成系統訓練過程中,大量的統計操作使得高斯函數均值所表征的頻譜丟失了太多的細節信息。而時域上的過平滑現象則導致頻譜變化過程中損失了太多細節,這是由連續隱馬爾可夫模型的本質所導致的。在傳統方法中,一個音素往往由3個或5個狀態來表示。如果某個狀態的持續時間較長,僅僅依靠該狀態對應的高斯函數均值無法描述該狀態內部語音參數變化的細節,這引起了嚴重的時域過平滑問題。因此,需要一種新的算法,可以盡可能地保證頻譜信息的精確度,這樣,才能夠構建自然、流暢的參數化語音合成系統。
發明內容
為了解決現有技術問題,本發明的目的是要提出一種算法,可以最大程度上保證頻譜信息的精確,從而保證輸出語音的清晰度。為此,本發明構建一種基于混合隱馬爾可夫模型的語音合成系統。
為實現上述目的,本發明的一種基于混合隱馬爾可夫模型的語音合成系統,利用各種電腦終端及數字移動設備,將系統接收的或輸入的任意文字串轉換成語音輸出,由頻譜信息生成模塊、基頻信息生成模塊、參數語音合成器模塊、離線訓練部分組成,其中:
具有一頻譜信息生成模塊,輸入端接收任意文本信息,負責根據指標來選取表征頻譜信息的碼本矢量并產生完整的頻譜信息;具有一輸出端輸出完整的頻譜信息;
具有一基頻信息生成模塊,輸入端接收文本信息,負責預測待合成句子的音高變化;具有一輸出端輸出完整的基頻曲線;
具有一參數語音合成器模塊,輸入端接收來自于頻譜信息生成模塊的頻譜信息和來自于基頻信息生成模塊的基頻信息;具有一輸出端輸出合成的語音結果;
具有一離線訓練模塊,負責各種隱馬爾可夫模型的訓練。
根據本發明的實施例,所述頻譜信息生成模塊包括:
具有一隱馬爾可夫模型映射模塊,接受任意文本信息,將其表征為帶有韻律信息標注的音素序列,找到與其最符合的隱馬爾可夫模型;具有一輸出端輸出隱馬爾可夫模型狀態序列;
具有一離散隱馬爾可夫模型模塊,根據訓練得到的離散隱馬爾可夫模型得到當前狀態下碼本矢量的輸出概率;具有一輸出端輸出當前狀態下碼本矢量的輸出概率;根據該輸出概率進行碼本的選擇,保證碼本選擇的正確性;
具有一有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊,根據訓練得到的多空間概率隱馬爾可夫模型得到當前狀態下的共振峰軌跡;具有一輸出端輸出當前狀態下的共振峰軌跡;合成語音的共振峰軌跡應該與該理想的共振峰軌跡相吻合,保證語音的清晰度;
具有一拼接概率模塊,具有一輸出端輸出相鄰狀態之間所有碼本矢量的輸出概率;依據兩兩候選碼本之間相鄰的概率進行碼本選擇,使頻譜在時域上具有多樣性;
具有一有關能量軌跡的連續隱馬爾可夫模型模塊,根據訓練得到的連續隱馬爾可夫模型得到當前狀態下的能量軌跡;具有一輸出端輸出當前狀態下的能量軌跡;
具有一碼本選擇模塊,根據離散隱馬爾可夫模型模塊、有關共振峰軌跡的多空間概率隱馬爾可夫模型模塊和拼接概率模塊的輸出結果使用動態規劃算法進行碼本的選擇;具有一輸出端輸出選擇得到的碼本序列;
碼本選擇模塊的輸出和有關能量軌跡的連續隱馬爾可夫模型模塊的輸出,兩者結合,獲得完整的頻譜信息。
根據本發明的實施例,所述基頻信息生成模塊包括:
具有一有關基頻曲線的多空間概率分布隱馬爾可夫模塊,根據訓練得到的多空間概率分布隱馬爾可夫模型得到待合成語句的基頻曲線;具有一輸出端輸出待合成語句的基頻曲線。
根據本發明的實施例,所述參數語音合成器模塊包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710304225.6/2.html,轉載請聲明來源鉆瓜專利網。





