[發明專利]基于感知譜收斂率的語音識別方法有效
| 申請號: | 202110071190.6 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112863517B | 公開(公告)日: | 2023-01-06 |
| 發明(設計)人: | 陶智;周長偉;吳迪;伍遠博;范子琦 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/08;G10L15/06;G10L15/04;G10L25/24 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 許燕萍 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 感知 收斂 語音 識別 方法 | ||
1.一種基于感知譜收斂率的語音識別方法,其特征在于,包括以下步驟:
對語音信號進行多頻帶劃分,得到分頻帶的語音信號;
對分頻帶語音信號分幀,對每一頻帶的每一幀語音信號作傅里葉變換,計算傅里葉變換后所有幀的頻譜圖的峰值之和和頻譜圖的動態范圍,所述頻譜圖的動態范圍為頻譜圖的峰值與谷值之差;結合頻譜圖的峰值之和和頻譜圖的動態范圍進行非線性壓縮得到語音信號的感知譜收斂率,所述感知譜收斂率GTSL的計算公式為:
將感知譜收斂率分為訓練集和測試集,使用訓練集訓練分類器得到訓練完成的分類器,將測試集輸入訓練完成的分類器進行語音識別。
2.根據權利要求1所述的基于感知譜收斂率的語音識別方法,其特征在于:所述對語音信號進行多頻帶劃分,具體為使用Gammatone濾波器對語音信號進行多頻帶劃分,得到多個頻帶的語音信號。
3.根據權利要求2所述的基于感知譜收斂率的語音識別方法,其特征在于:所述使用Gammatone濾波器對語音信號進行多頻帶劃分時,Gammatone濾波器采用等效矩形帶寬的過濾方法,Gammatone濾波器的時域表達形式為:
gi(t)=at(n-1)e-2πBtcos(2πfit+φ)u(t),
其中t為時間變量,Ф為濾波器初始相位,fi為第i通道濾波器的中心頻率,a為Gammatone濾波器的幅度,B為與等效矩形帶寬有關的參數;n為濾波器階數,用于模擬人耳基底膜的濾波特性。
4.根據權利要求3所述的基于感知譜收斂率的語音識別方法,其特征在于:所述第i通道濾波器的中心頻率fi為:其中C為與品質因子和帶寬有關的參數,fl和fh是濾波器的最低和最高頻率,K為濾波器的個數;
所述與等效矩形帶寬有關的參數B的計算公式為B=b1·ERB(fi),其中等效矩形帶寬ERB(fi)的計算公式為ERB(fi)=24.7+0.108fi,b1為等效矩形帶寬增益。
5.根據權利要求1所述的基于感知譜收斂率的語音識別方法,其特征在于:所述對分頻帶語音信號分幀的方法為采用漢明窗對對分頻帶語音信號進行分幀,分幀公式為xi(n)=X(n)·gi(n)→yij(n),j=1,2,3…m,其中X(n)為原始語音信號,xi(n)為第i個頻率通道的語音信號,yij(n)為第i個頻率通道的第j幀的語音信號。
6.根據權利要求1所述的基于感知譜收斂率的語音識別方法,其特征在于:所述傅里葉變換的公式為其中Si為第i個頻率通道的功率譜,ω(n-k)為漢明窗函數,k為語音序列每個采樣點的索引。
7.根據權利要求6所述的基于感知譜收斂率的語音識別方法,其特征在于:所述第i個頻率通道的功率譜Si的計算公式為其中C11...Cmn為所有幀功率譜的幅度值。
8.根據權利要求1所述的基于感知譜收斂率的語音識別方法,其特征在于:所述計算傅里葉變換后所有幀的頻譜圖的峰值之和和頻譜圖的動態范圍中,頻譜圖的峰值之和Emaxi的計算公式為其中C(j,k)為第j幀語音信號功率譜的第k個幅度值。
9.根據權利要求1所述的基于感知譜收斂率的語音識別方法,其特征在于:所述計算傅里葉變換后所有幀的頻譜圖的峰值之和和頻譜圖的動態范圍中,頻譜圖的動態范圍ΔEi的計算公式為其中C(j,k)為第j幀語音信號功率譜的第k個幅度值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110071190.6/1.html,轉載請聲明來源鉆瓜專利網。





