[發明專利]一種基于非線性譜變換的特征補償方法有效
| 申請號: | 201711112747.6 | 申請日: | 2017-11-13 |
| 公開(公告)號: | CN107919115B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/07 | 分類號: | G10L15/07;G10L15/06;G10L15/20;G10L25/24;G10L15/14 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210098 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 非線性 變換 特征 補償 方法 | ||
1.一種基于非線性譜變換的特征補償方法,其特征在于:用大量說話人的標準語音訓練生成一個高斯混合模型(GMM:Gaussian Mixture Model);在測試階段,用各種變換參數對目標說話人每幀語音的幅度譜進行非線性頻率變換,使GMM的輸出概率最大,將輸出概率最大時的美爾頻率倒譜系數(MFCC:Mel Frequency Cepstral Coefficients)作為補償后的目標語音特征參數。
2.根據權利要求1所述的一種基于非線性譜變換的特征補償方法,其特征在于,具體包括:
(1)從大量說話人的訓練語音中提取標準MFCC,訓練生成一個高斯混合模型;
(2)對目標說話人的語音加窗,分幀,快速傅里葉變換(FFT:Fast FourierTransform),得到每幀語音信號的幅度譜;
(3)對每幀語音信號的幅度譜進行頻率變換;
(4)對變換后的幅度譜進行Mel濾波,取對數,離散余弦變換(DCT:Discrete CosineTransform),得到非線性頻率變換后的MFCC;
(5)用GMM對非線性頻率變換后的MFCC進行聲學解碼,記錄輸出概率;
(6)更換頻率變換參數,重復(3)~(5);
(7)比較每個頻率變換參數對應的輸出概率,選取輸出概率最大的變換參數對應的MFCC作為補償后的目標語音特征參數。
3.根據權利要求2所述的一種基于非線性譜變換的特征補償方法,其特征在于:通過下式來進行數字頻率的非線性變換:
其中,k和l分別表示變換前后語音幅度譜的數字頻率,a為頻率變換參數,round()是取整函數。
4.根據權利要求2所述的一種基于非線性譜變換的特征補償方法,其特征在于:用預先訓練的GMM對非線性頻率變換后的MFCC進行聲學解碼,記錄輸出概率,頻率變換參數a在區間[-1,1]上等間距取若干個值,對每個a值都進行頻率變換、特征提取和GMM解碼,并記錄輸出概率,在完成所有a值的操作后,比較所有a值對應的輸出概率,選取輸出概率最大的a值對應的MFCC作為補償后的目標語音特征參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711112747.6/1.html,轉載請聲明來源鉆瓜專利網。





