[發明專利]基于MFCC和BP神經網絡的說話人識別系統及方法有效
| 申請號: | 202110266020.3 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN113053398B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 高小清;張浩;劉浩;羅挺;劉年 | 申請(專利權)人: | 東風汽車集團股份有限公司 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L25/24;G10L25/30 |
| 代理公司: | 武漢開元知識產權代理有限公司 42104 | 代理人: | 李滿 |
| 地址: | 430056 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 mfcc bp 神經網絡 說話 識別 系統 方法 | ||
1.一種基于MFCC和BP神經網絡的說話人識別系統,其特征在于:它包括語音信號預處理模塊(1)、語音信號加窗處理模塊(2)、頻譜分析模塊(3)、濾波模塊(4)、離散余弦變換模塊(5)、BP神經網絡模塊(6)和實際場景說話人識別模塊(8),所述語音信號預處理模塊(1)用于依次對語音信號進行分幀、選幀和預加重的信號預處理,語音信號加窗處理模塊(2)用于對預處理后的語音信號進行加窗處理,頻譜分析模塊(3)用于對加窗處理后的語音信號進行頻譜分析得到語音信號各幀的頻譜,濾波模塊(4)用于對語音信號各幀頻譜的譜線能量進行美爾濾波處理,離散余弦變換模塊(5)用于對美爾濾波后的語音信號各幀頻譜進行離散余弦變換得到語音信號的美爾頻率倒譜系數;
BP神經網絡模塊(6)用于將所有需要身份識別的說話人語音數據分為訓練集和測試集,利用訓練集中說話人語音數據的美爾頻率倒譜系數生成BP神經網絡訓練數據集,并為每個說話人分別建立對應的BP神經網絡,利用BP神經網絡訓練集對各個BP神經網絡進行訓練;
實際場景說話人識別模塊(8)用于將實際場景中采集到的語音信號的美爾頻率倒譜系數輸入到已完成訓練的各個對應BP神經網絡中進行實際場景說話人識別;
語音信號預處理模塊(1)對語音信號進行分幀處理的具體過程為:將經過重采樣和語音端點檢測后的語音信號記為{s0(i)},i=1,2……,L,其中,L為語音信號長度,s0(i)為語音信號的第i個數據;
分幀前,先對語音信號進行歸一化處理;
將語音信號{s0(i)}做如下處理:
{s1(i)}={s0(i)}/max(abs({s0(i)})),i=1,2……,L,其中,max(abs({s0(i)}))表示先對語音信號{s0(i)}取絕對值,再對數據序列取最大值;
分幀時,以N為數據長度對語音信號{s1(i)}進行截取,第j幀數據為x0(j)={s1((j-1)*N+1)~s1(j*N)},N為幀長;
所述語音信號預處理模塊(1)對語音信號進行選幀處理的過程為:
選幀前,先求出各數據幀短時幅度,計算公式如下:
其中,frame_L為幀的數量,amp(j)為第j幀短時幅度,s1j(m0)為第j幀數據x0(j)={s1((j-1)*N+1)~s1(j*N)}中的第m0個數據,||表示取絕對值;
對{amp(j)}取最大值max({amp(j)}),記為amp_max;
采用如下方式對語音信號進行選幀:
valid_frame_no={j|amp(j)δ*amp_max,j=1,2……,frame_L}
其中,valid_frame_no為被選中幀序號的集合,δ的取值為0δ1;
所述語音信號預處理模塊(1)對語音信號進行預加重處理的過程為:
預加重用數字濾波器實現:
s2(q1)=s1(q1+1)-μ*s1(q1),q1=1,2……,L-1,其中,L為語音信號{s1(i)}長度,μ為常數,μ的取值介于0.9~1.0之間,s1(q1)為語音信號{s1(i)}的第q1個數據,{s2(q1)}為預加重后得到的信號。
2.根據權利要求1所述的基于MFCC和BP神經網絡的說話人識別系統,其特征在于:它還包括說話人識別測試模塊(7),所述說話人識別測試模塊(7)用于將測試集中說話人語音數據的美爾頻率倒譜系數輸入到已完成訓練的各個對應BP神經網絡中進行BP神經網絡識別率和可靠性測試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東風汽車集團股份有限公司,未經東風汽車集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110266020.3/1.html,轉載請聲明來源鉆瓜專利網。





