[發明專利]基于先驗清濁知識的基頻提取方法及系統有效
| 申請號: | 201010233627.3 | 申請日: | 2010-07-22 |
| 公開(公告)號: | CN102339605A | 公開(公告)日: | 2012-02-01 |
| 發明(設計)人: | 王玉平 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/14;G10L11/06 |
| 代理公司: | 上海浦一知識產權代理有限公司 31211 | 代理人: | 王函 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 先驗 清濁 知識 基頻 提取 方法 系統 | ||
技術領域
本發明屬于一種語音信號處理方法,尤其涉及一種基頻提取方法;具體涉及一種基于先驗清濁知識的基頻提取方法;此外,本發明還涉及一種基于先驗清濁知識的基頻提取系統。
背景技術
在當前的中文語音信號處理中,經常會碰到需要提取基頻參數的情況,而現在許多的基頻提取算法,在清濁判決的時候或多或少存在問題,特別是在待處理語音的發音不是很飽滿、發音比較低沉的情況下,清濁判決的錯誤率很高,常常導致后面的相關處理受到很大的影響。
在當前的語音合成的研究中,參數化的語音合成算法已被證明可以獲得高質量的穩定的合成語音,但是基頻提取的好壞能對最終的合成效果產生直接的影響,基頻提取的好壞,很大程度上影響著合成語音的質量。
同樣,在語音識別和語音評測中,基頻的重要性也越來越高,基頻參數提取的好壞會對最終結果產生直接的影響。
現有的絕大多數基頻提取算法,首先根據輸入的語音數據統計相關的統計量,如自相關系數等,然后根據相關的統計量分布來做清濁判決,最后根據清濁判決結果結合相關統計量做基頻軌跡平滑,最后輸出基頻。現有絕大多數基頻提取算法的清濁判決模塊都是基于數據統計的,由于人類發音的多樣性,統計數據并不能很好的處理所有的發音情況。
發明內容
本發明要解決的技術問題是提供一種基于先驗清濁知識的基頻提取方法,該方法利用清濁切分邊界作為先驗知識輸入到基頻提取算法中的清濁判決模塊來輔助清濁判決,將原先的自動清濁判決和現有的清濁切分邊界融合,就可以得到理想的清濁判決結果,從而提高清濁判決的正確率。為此,本發明還提供一種基于先驗清濁知識的基頻提取系統。
為解決上述技術問題,本發明一種基于先驗清濁知識的基頻提取方法,包括如下步驟:
第一步,獲取清濁切分邊界;
第二步,對待提取數據進行統計量計算;
第三步,將第二步獲得的統計量和對應的第一步獲得的清濁切分邊界結合進行清濁判決;
第四步,動態規劃與基頻軌跡平滑;
第五步,輸出高質量的基頻提取結果。
第一步具體包括如下步驟:
步驟1,選取訓練數據中的一小部分來做人工標注切分,標注出每個音素的邊界作為下個模塊的輸入;
步驟2,基頻及相關參數提取;
步驟3,模型訓練;
步驟4,音素切分:利用統計模型和訓練數據的參數來進行切分;
步驟5,將音素切分的結果轉化為清濁切分邊界。
在第一步的步驟1中,所述訓練數據表示用于相關語音算法的語音數據,此數據的數據量規模巨大;所述相關語音算法是語音合成、語音識別或語音評測。
在第一步的步驟2中,所述基頻提取采用第二步至第五步的基頻提取算法,所述相關參數是頻譜參數。
在第一步的步驟3中,所述模型訓練用于統計參數的分布情況。
在第一步的步驟4中,先對所有訓練數據進行參數分析,該步驟對于基頻參數采用傳統的基頻提取算法。
在第二步中,所述待提取數據指需要進行基頻提取的訓練數據;所述統計量計算指根據輸入的語音信號分幀來計算每幀數據的統計量。
此外,本發明還提供一種基于先驗清濁知識的基頻提取系統,包括統計量計算模塊、動態規劃與基頻平滑模塊、清濁判決模塊和清濁切分邊界獲取模塊;該統計量計算模塊用于待提取的訓練數據進行統計量計算;該清濁判決模塊用于將統計量計算模塊獲得的統計量和清濁切分邊界獲取模塊獲得的對應的清濁切分邊界結合進行清濁判決;該動態規劃與基頻平滑模塊用于對清濁判決模塊的數據進行動態規劃以獲得平滑的基頻軌跡,并輸出基頻提取結果。
所述清濁切分邊界獲取模塊包括少量人工標注模塊、基頻及相關參數提取模塊、模型訓練模塊和音素切分模塊;該少量人工標注模塊用于選取訓練數據中的一小部分來做人工標注切分,標注出每個音素的邊界作為基頻及相關參數提取模塊的輸入;該模型訓練模塊用于對基頻及相關參數提取模塊提取的參數進行統計分布情況;該音素切分模塊利用模型訓練模塊統計的參數來進行切分,并將音素切分的結果轉化為清濁切分邊界。
所述音素切分模塊對所有訓練數據進行參數分析,該模塊對于基頻參數采用傳統的基頻提取算法。
所述統計量計算模塊根據輸入的語音信號分幀來計算每幀數據的統計量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010233627.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種金屬管噴漆裝置
- 下一篇:半導體集成器件制造方法





