[發明專利]一種用于說話人識別系統的后端i-vector增強方法有效
| 申請號: | 201710224925.8 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107146601B | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 王昕;張洪冉;李宗晏 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/07;G10L17/02;G10L17/04;G10L25/18;G10L25/30 |
| 代理公司: | 江蘇海越律師事務所 32402 | 代理人: | 唐小紅 |
| 地址: | 210003 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 說話 識別 系統 后端 vector 增強 方法 | ||
1.一種用于說話人識別系統的i-vector后端增強方法,其特征在于,分為訓練和識別兩個階段,訓練階段步驟如下:
A-1),對訓練說話人語音信號進行預處理,包括預加重、端點檢測、分幀、加窗;
A-2),MFCC提取法,提取說話人語音信號的MFCC特征;
A-3),根據A-2)提取的MFCC特征訓練GMM-UBM模型來對語音聲學特征進行對準,并計算得到特征的高維充分統計量;
A-4),根據A-3)得到的特征充分統計量訓練i-vector特征提取器,利用該提取器提取說話人語音信號的i-vector;
A-5),i-vector特征提取器,提取純凈語音和含噪語音的i-vector,其中,含噪語音的i-vector作為DNN訓練數據,純凈語音的i-vector作為標簽數據;
A-6),使用以下方法對深層神經網絡模型進行訓練,經過訓練后的深層神經網絡模型作為i-vector后端增強模塊,與i-vector/PLDA說話人識別模型融合;
識別步驟為:
B-1),對識別語音進行預加重、端點檢測、分幀、加窗,并提取識別語音的MFCC特征;
B-2),i-vector特征提取器,提取待識別說話人每條注冊語音和識別語音的i-vector,并將這些i-vector分別作為DNN模型的輸入,該模型的輸出為增強后的i-vector;
B-3),將待識別說話人注冊語音增強后的i-vector和識別語音增強后的i-vector輸入PLDA模型打分,將PLDA輸出的似然比得分與設定的閾值比較,做出最終判決結果。
2.如權利要求1所述的方法,其特征在于,在A-2)中,還包括:
對分幀加窗后的各幀信號進行快速傅里葉變換得到各幀的頻譜,并對語音信號的頻譜取模平方得到語音信號的功率譜,設語音信號的DFT為:
式中x(n)為輸入的語音信號,N表示傅里葉變換的點數;
將能量譜通過一組Mel尺度的三角形濾波器組,定義一個有M個濾波器的濾波器組,采用的濾波器為三角濾波器,中心頻率為f(m),m=1,2,...,M,M取22-26;各f(m)之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬;
經離散余弦變換(DCT)得到MFCC系數:
將對數能量帶入離散余弦變換,求出L階的梅爾頻率倒譜參數;L階指MFCC系數階數,取12-16;這里M是三角濾波器個數。
3.如權利要求1所述的方法,其特征在于,在A-6)中,還包括:
深層神經網絡deep neural network即DNN模型訓練步驟如下:
(A-6-1)利用對比散度CD算法逐層預訓練構成DBN網絡的RBM參數,采用自底向上的方法訓練多個RBM,每個RBM隱含層作為下一RBM輸入層,逐層累加得到多層結構;
(A-6-2)在訓練好的DBN頂部添加線性輸出層得到DNN結構,利用誤差反向傳播算法,將MMSE函數作為優化函數,通過最小化優化函數得到最優參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224925.8/1.html,轉載請聲明來源鉆瓜專利網。





