[發明專利]一種端到端的聲紋識別方法、裝置、存儲介質及設備有效
| 申請號: | 202011188392.0 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112071322B | 公開(公告)日: | 2022-01-25 |
| 發明(設計)人: | 馬杰 | 申請(專利權)人: | 北京快魚電子股份公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/08;G10L25/24;G10L25/27;G10L25/30;G10L25/69 |
| 代理公司: | 北京天盾知識產權代理有限公司 11421 | 代理人: | 張彩珍 |
| 地址: | 100195 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 端到端 聲紋 識別 方法 裝置 存儲 介質 設備 | ||
1.一種端到端的聲紋識別方法,其特征在于,該方法包括:
準備訓練用聲音數據集;
對所述訓練用聲音數據集中的聲音數據進行預處理,所述預處理包括對信噪比和語速進行規整和拼接;所述對信噪比和語速進行規整和拼接包括:將獲取的原始聲音、疊加了噪音的聲音、調整語速的聲音拼接在一起;
對預處理后的聲音數據進行活動語音段檢測,并將檢測存在語音段的聲音數據進行拼接得到語音數據;
提取所述語音數據的log_mel特征;
基于所述log_mel特征構建端到端的深度神經網絡模型,在模型訓練的開始階段,每個MiniBatch中輪流加入部分損失值最大的正樣本和損失值最大的負樣本;在訓練結果逐漸穩定后,將損失值大于預定閾值的樣本剔除;根據模型訓練的結果提取所述聲音數據的聲紋特征,建立說話人聲紋數據庫;
基于所述說話人聲紋數據庫對說話人聲音數據進行識別;
其中,所述端到端的深度神經網絡模型訓練所采用的損失函數具有如式(1)所示的公式,
kyloss=l1+l2 (1);
式(1)中,kyloss表示損失函數,l1表示類間距離,l2表示類內距離,
l1=max(san-sap+alpha,0),其中alpha設為0.5;
l2=max(-0.5*sap,0)+max(0.5*san,0);san為不同用戶對應的聲紋特征的余弦距離,sap為相同用戶對應的聲紋特征的余弦距離。
2.根據權利要求1所述的方法,其特征在于,所述對預處理后的聲音數據進行活動語音段檢測,并將檢測存在語音段的聲音數據進行拼接得到語音數據包括:
將拼接后的聲音數據集進行分幀,使用雙門限法進行基本幀的VAD;對基本幀的VAD結果進行中值濾波;將通過VAD檢測的聲音數據拼接得到語音數據。
3.根據權利要求1所述的方法,其特征在于,所述端到端的深度神經網絡訓練包括:
將從各用戶標識對應的聲音數據中分別提取的log_mel特征,作為訓練數據;
利用深度神經網絡對各聲音數據的log_mel特征進行學習,輸出各聲音數據的聲紋特征;
利用所述各聲音數據的聲紋特征計算損失函數,利用所述損失函數對所述深度神經網絡進行調參,以最小化所述損失函數值。
4.根據權利要求1所述的方法,其特征在于,基于所述說話人聲紋數據庫對待識別語說話人聲音數據進行識別包括:
通過所述端到端的深度神經網絡模型提取說話人聲音數據的聲紋特征;
利用所述說話人聲音數據的聲紋特征,注冊所述說話人聲音數據所對應用戶標識的聲紋模型;
將所述聲紋特征與聲紋數據庫中全部或部分的聲紋數據通過余弦距離進行相似度對比,若匹配到某說話人,將該聲紋特征更新到對應用戶標識的聲紋數據庫中。
5.根據權利要求4所述的方法,其特征在于,將所述聲紋特征與聲紋數據庫中全部或部分的聲紋數據通過余弦距離進行相似度對比,若匹配到某說話人,將該聲紋特征更新到對應用戶標識的聲紋數據庫中進一步包括:
將與所述用戶標識對應的聲紋特征按注冊時間從近期到遠期排序,以注冊時間排序前5%的聲紋特征的均值向量作為近期聲紋特征向量值,其他聲紋特征的均值向量作為歷史聲紋特征向量值,將所述說話人聲音數據的聲紋特征向量與已注冊的各用戶標識的聲紋模型進行匹配,確定所述說話人聲音數據對應的用戶標識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京快魚電子股份公司,未經北京快魚電子股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011188392.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雞鴨爪翅鹵制品的生產方法
- 下一篇:一種膠布封箱設備





