[發明專利]基于徑向基神經網絡的耳語音轉換為正常語音的方法無效

申請號：	200910025321.6	申請日：	2009-03-10
公開（公告）號：	CN101527141A	公開（公告）日：	2009-09-09
發明（設計）人：	陶智;趙鶴鳴;顧濟華;韓韜;陳大慶;許宜申;吳迪;張曉俊	申請（專利權）人：	蘇州大學
主分類號：	G10L21/02	分類號：	G10L21/02
代理公司：	蘇州創元專利商標事務所有限公司	代理人：	陶海鋒
地址：	215123江蘇省***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于徑向神經網絡耳語轉換正常語音方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于徑向基神經網絡的耳語音轉換為正常語音的方法，包括訓練步驟和轉換步驟，其特征在于：

所述訓練步驟為，分別提取出相同發音內容的耳語音和正常語音的線譜對參數，使用徑向基神經網絡對耳語音、正常語音的線譜對參數進行訓練，捕獲耳語音、正常語音頻譜包絡的映射關系；

所述轉換步驟為，提取待轉換的耳語音的線譜對參數，使用已訓練好的徑向基神經網絡進行轉換，獲得對應于正常語音的線譜對參數，并使用線譜對參數合成器轉換出正常語音；

所述訓練步驟中，獲取耳語音的線譜對參數的方法為，獲取采樣率不低于10KHz的音頻文件，進行下列處理，

(1)預處理：先采用一階數字濾波器進行預加重處理，所述一階數字濾波器為H(z)＝1-uz^-1，式中，H是傳遞函數，z是z變換，u為預加重系數，其取值為0.9＜u＜1；

再進行分幀加窗處理，每幀時間長度為20～30毫秒，幀長取2的整數次方，幀移與幀長的比值為1/4～1/2，采用漢明窗進行加窗處理，

式中，n為加窗點，N為漢明窗的窗長，w為漢明窗；

(2)線譜對分析：對經過預處理后的耳語音提取線譜對參數(w_i、θ_i)，并且w_i、θ_i按下式關系排列：

0＜w₁＜θ₁＜…＜w_p/2＜θ_p/2＜π，

其中p為線性預測誤差濾波器傳遞函數的階數，a_k為線性預測系數，z為z變換，A為線性預測誤差濾波器；

獲取正常語音的線譜對參數時，其步驟與上述耳語音的處理步驟相同。

2.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法，其特征在于：所述步驟(1)中，u的取值為0.937。

3.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法，其特征在于：所述音頻文件的采樣率為10KHz，所述步驟(1)中，幀長為256點，幀移為128點。

4.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法，其特征在于：所述步驟(2)中，p的取值為10～15的整數。

5.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法，其特征在于：所述訓練步驟中，使用徑向基神經網絡，將耳語音的線譜對參數(w_i耳、θ_i耳)作為徑向基神經網絡輸入值x，正常語音的線譜對參數(w_i_正、θ_i正)作為導師信號d，徑向基神經網絡的實際輸出為y，通過徑向基神經網絡的學習，得到基函數的中心和方差以及隱含層與輸出層間的權值，最后得到耳語音、正常語音頻譜包絡的映射關系。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于蘇州大學，未經蘇州大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910025321.6/1.html，轉載請聲明來源鉆瓜專利網。