[發明專利]基于Fbank特征和MFCC特征融合的聲紋識別方法有效
| 申請號: | 202110586134.6 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113393847B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 周后盤;趙將焜 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/22 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 fbank 特征 mfcc 融合 聲紋 識別 方法 | ||
本發明公開了一種基于Fbank特征和MFCC特征融合的聲紋識別方法,本發明先對于語音數據集進行預處理,提取Fbank特征和MFCC特征;將得到40維Fbank特征和12維MFCC特征的基礎上進行特征融合。本發明在廣義端到端模型上進行實驗,相比單獨的Fbank和MFCC特征,本發明提出的特征融合方法優于單獨的特征。本發明的特征融合方法降低了特征維度、降低了冗余、減少了存儲空間以及訓練復雜度。
技術領域
本發明涉及語音信號處理、人工智能領域,特別涉及一種基于Fbank特征和MFCC特征融合的聲紋識別方法。
背景技術
聲紋識別又叫做說話人識別,是一種通過語音信號提取能夠代表說話人身份的特征、并基于該特征識別出說話人身份的技術。聲紋識別作為生物特征應用之一,與指紋識別、人臉識別有著同等重要的應用領域,且聲紋識別具有采集方便、非接觸性便利、造價低廉等優點。聲紋識別可以應用在金融、智能鎖、特定人喚醒等領域,隨著應用范圍的擴大,人們對聲紋識別的要求也越來越高,提高聲紋識別的性能也有著重要的意義。
聲紋識別流程一般分為特征提取、模型構建、打分判決三個模塊。在特征提取模塊中,常用的聲紋特征有MFCC、Fbank、LPC、PLP等。當前常用的方式大多是基于單獨的一類特征進行訓練,且僅有的特征融合方法是選擇將兩種不同的特征進行直接拼接。
發明內容
本發明針對現有技術中直接拼接不同類特征造成的維度過大以及冗余問題,提出了一種基于Fbank特征和MFCC特征融合的聲紋識別方法。
本發明公開一種基于Fbank特征和MFCC特征融合的聲紋識別方法,具體包括以下步驟:
步驟一、準備語音數據集,并對數據集進行預處理;
步驟二、提取Fbank特征;
將預處理后的語音幀序列經過快速傅里葉變換、取功率譜、取幅度平方、經過梅爾濾波器組并取對數得到Fbank特征;
步驟三、提取MFCC特征;
在Fbank特征的基礎上進行離散余弦變換得到MFCC特征;
步驟四、特征融合;
在得到40維Fbank特征和12維MFCC特征的基礎上進行特征融合。
作為優選,所述的梅爾濾波器組系數取40。
作為優選,所述的在Fbank特征的基礎上進行離散余弦變換得到MFCC,具體為:提取第1-12組系數進行DCT變換得到12維的MFCC特征。
作為優選,所述的在得到40維Fbank特征和12維MFCC特征的基礎上進行特征融合,具體為:將第1-12組的MFCC特征嵌入到40維Fbank的第1-12組中。
作為優選,所述的對數據集進行預處理具體為:預加重、分幀、加窗,最后輸出語音幀序列。
作為優選,所述的分幀采用25ms幀長、10ms幀移。
作為優選,所述的加窗的窗口選擇為漢明窗。
與現有技術相比,本發明具有以下有益效果:本發明在廣義端到端模型上進行實驗,相比單獨的Fbank和MFCC特征,本發明提出的特征融合方法優于單獨的特征。本發明的特征融合方法降低了特征維度、降低了冗余、減少了存儲空間以及訓練復雜度。
附圖說明
圖1為本發明所涉及的Fbank與MFCC特征提取流程圖;
圖2為本發明提出的特征融合方法示意圖;
具體實施方式
下面結合附圖詳細說明本發明的具體實施步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110586134.6/2.html,轉載請聲明來源鉆瓜專利網。





