[發明專利]一種短語音說話人識別方法和裝置有效
| 申請號: | 201711472767.4 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN108281146B | 公開(公告)日: | 2020-11-13 |
| 發明(設計)人: | 蘇鵬程;張一凡 | 申請(專利權)人: | 歌爾科技有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/08;G10L25/24 |
| 代理公司: | 北京市隆安律師事務所 11323 | 代理人: | 權鮮枝;吳昊 |
| 地址: | 266104 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 說話 識別 方法 裝置 | ||
1.一種短語音說話人識別方法,其特征在于,該方法包括:
對輸入的訓練短語音信號預處理后,提取梅爾頻率倒譜系數作為訓練特征向量,利用自適應核可能性模糊C均值聚類算法進行聚類分析建立說話人語音參考模型;
對輸入的測試短語音信號預處理后,提取梅爾頻率倒譜系數作為測試特征向量,計算所述測試特征向量與所述說話人語音參考模型之間的距離,并根據所述距離識別短語音說話人的身份;
其中,所述利用自適應核可能性模糊C均值聚類算法進行聚類分析建立說話人語音參考模型具體包括下列步驟:
步驟S0,計算初始聚類中心V0;
步驟S1,根據公式(2)和(3)計算高斯核函數的帶寬參數σ:
步驟S2,根據預定公式計算γi;
步驟S3,令t=1;
步驟S4,根據公式(4)和(5),計算在第t次迭代時高斯核函數的帶寬參數σt:
步驟S5,根據第t-1次的聚類中心Vt-1和下列公式(6)計算第t次第k個特征向量對第i類的隸屬度Ut:
根據第t-1次的聚類中心Vt-1和下列公式(7)計算第t次集合xk屬于第i類的典型值Tt:
根據第t-1次的聚類中心Vt-1和Ut、Tt、下列公式(8)計算第t次的聚類中心Vt:
步驟S6,判斷當||Ut-Ut-1||≤ε或者||Vt-Vt-1||≤ε時,終止迭代并輸出對應的Ut、Tt、Vt;其中,ε為預設的最大誤差;
步驟S7,令t=t+1,
步驟S8,判斷當賦值后的t大于最大迭代次數時,終止迭代并輸出對應的Ut、Tt、Vt;否則,返回步驟S4繼續執行直至終止迭代。
2.根據權利要求1所述的短語音說話人識別方法,其特征在于,提取梅爾頻率倒譜系數作為訓練特征向量包括:
對預處理后的訓練短語音信號作快速傅里葉變換,獲得頻譜分布信息;
對訓練短語音信號的頻譜取絕對值獲得幅度譜;
將幅度譜通過一個有Q個高斯帶通濾波器的濾波器組,并計算每個高斯帶通濾波器輸出的對數;
將每個高斯帶通濾波器的對數能量帶入離散余弦變換,提取得到梅爾頻率倒譜系數。
3.根據權利要求1所述的短語音說話人識別方法,其特征在于,利用自適應核可能性模糊C均值聚類算法進行聚類分析建立說話人語音參考模型包括:
將得到的包含N個訓練特征向量的集合{xk}劃分為C個子集,其中,k=1,…,N,xk為M維向量,1CN,
求出每個子集的聚類中心,使得下列目標函數最小:
且滿足下列約束條件一和二:
條件一,條件二,
公式(1)中,uik∈U表示第k個特征向量對第i類的隸屬度;tik∈T表示集合xk屬于第i類的典型值;m,η>1為模糊加權指數;a,b>0為權重系數;vi∈V為聚類中心;系數γi>0。
4.根據權利要求1所述的短語音說話人識別方法,其特征在于,計算所述測試特征向量與所述說話人語音參考模型之間的距離包括:
利用訓練出的說話人語音參考模型的碼本對測試特征向量進行量化,并計算平均量化誤差,將算出的平均量化誤差作為測試特征向量與說話人語音參考模型之間的距離;
當測試特征向量與說話人語音參考模型之間的距離小于或者等于距離閾值時,則確定短語音的說話人與說話人語音參考模型指示的參考說話人為同一人。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于歌爾科技有限公司,未經歌爾科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711472767.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種語音識別方法和系統
- 下一篇:基于LPCC和ADTW的聲紋識別系統





