[發明專利]基于徑向基神經網絡的耳語音轉換為正常語音的方法無效
| 申請號: | 200910025321.6 | 申請日: | 2009-03-10 |
| 公開(公告)號: | CN101527141A | 公開(公告)日: | 2009-09-09 |
| 發明(設計)人: | 陶智;趙鶴鳴;顧濟華;韓韜;陳大慶;許宜申;吳迪;張曉俊 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02 |
| 代理公司: | 蘇州創元專利商標事務所有限公司 | 代理人: | 陶海鋒 |
| 地址: | 215123江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 徑向 神經網絡 耳語 轉換 正常 語音 方法 | ||
1.一種基于徑向基神經網絡的耳語音轉換為正常語音的方法,包括訓練步驟和轉換步驟,其特征在于:
所述訓練步驟為,分別提取出相同發音內容的耳語音和正常語音的線譜對參數,使用徑向基神經網絡對耳語音、正常語音的線譜對參數進行訓練,捕獲耳語音、正常語音頻譜包絡的映射關系;
所述轉換步驟為,提取待轉換的耳語音的線譜對參數,使用已訓練好的徑向基神經網絡進行轉換,獲得對應于正常語音的線譜對參數,并使用線譜對參數合成器轉換出正常語音;
所述訓練步驟中,獲取耳語音的線譜對參數的方法為,獲取采樣率不低于10KHz的音頻文件,進行下列處理,
(1)預處理:先采用一階數字濾波器進行預加重處理,所述一階數字濾波器為H(z)=1-uz-1,式中,H是傳遞函數,z是z變換,u為預加重系數,其取值為0.9<u<1;
再進行分幀加窗處理,每幀時間長度為20~30毫秒,幀長取2的整數次方,幀移與幀長的比值為1/4~1/2,采用漢明窗進行加窗處理,
式中,n為加窗點,N為漢明窗的窗長,w為漢明窗;
(2)線譜對分析:對經過預處理后的耳語音提取線譜對參數(wi、θi),并且wi、θi按下式關系排列:
0<w1<θ1<…<wp/2<θp/2<π,
其中p為線性預測誤差濾波器傳遞函數的階數,ak為線性預測系數,z為z變換,A為線性預測誤差濾波器;
獲取正常語音的線譜對參數時,其步驟與上述耳語音的處理步驟相同。
2.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法,其特征在于:所述步驟(1)中,u的取值為0.937。
3.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法,其特征在于:所述音頻文件的采樣率為10KHz,所述步驟(1)中,幀長為256點,幀移為128點。
4.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法,其特征在于:所述步驟(2)中,p的取值為10~15的整數。
5.根據權利要求1所述的基于徑向基神經網絡的耳語音轉換為正常語音的方法,其特征在于:所述訓練步驟中,使用徑向基神經網絡,將耳語音的線譜對參數(wi耳、θi耳)作為徑向基神經網絡輸入值x,正常語音的線譜對參數(wi正、θi正)作為導師信號d,徑向基神經網絡的實際輸出為y,通過徑向基神經網絡的學習,得到基函數的中心和方差以及隱含層與輸出層間的權值,最后得到耳語音、正常語音頻譜包絡的映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910025321.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型電子報警防盜方法及系統
- 下一篇:充電控制電路





