[發明專利]一種聲紋識別模型的訓練方法、存儲介質和計算機設備有效
| 申請號: | 202011076711.9 | 申請日: | 2020-10-10 |
| 公開(公告)號: | CN112259105B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 張翠玲;譚鐵君;李稀敏;楊東升;葉志堅;肖龍源 | 申請(專利權)人: | 西南政法大學;廈門快商通科技股份有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L25/24;G06N3/04;G06N3/08 |
| 代理公司: | 廈門市新華專利商標代理有限公司 35203 | 代理人: | 朱凌 |
| 地址: | 400000 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 聲紋 識別 模型 訓練 方法 存儲 介質 計算機 設備 | ||
本發明一種聲紋識別模型的訓練方法、存儲介質和計算機設備,提取包含說話人身份信息的語音學特征作為輸入特征,利用說話人的性別等標簽進行多任務訓練,并結合對抗訓練方法來解決跨信道問題,最終提取反映說話人身份本質的、穩定的特征。本發明結合了語音學特征以及深度神經網絡模擬人類大腦的學習機制,從而提高說話人身份本質特征的提取能力、穩定性和可解釋性,最終提升自動聲紋識別的準確率和召回率。
技術領域
本發明涉及自動聲紋識別領域,尤其是一種面向司法語音證據評估模式的聲紋識別模型的訓練方法、存儲介質和計算機設備。
背景技術
在司法語音領域的說話人同一性鑒定任務中,目前國內主流的鑒定方法基于看、聽、測等幾個維度,依賴聲紋鑒定專家的個人經驗。這種方法耗時、耗力,而且包含鑒定專家的主觀判斷,無法在更大的從業群體中快速推廣。此外,受限于此類方法的特點,其只能適于小規模的檢材和樣本場景,當待比對的檢材和樣本成百上千甚至更多時,聲紋鑒定專家不足以應付工作量如此巨大的任務。鑒于此類原因,基于似然比計算框架的證據評估模式被提上議程,在歐美部分國家(比如美國、英國)中正在被逐步采用并實踐。在基于似然比計算框架的司法語音證據評估模式中,自動聲紋識別是其核心基礎。
自動聲紋識別的技術路線中,基于統計機器學習的身份向量(i-vector)提取方法和基于深度神經網絡的身份向量(embedding)提取方法逐漸成為當前學術界和工業界的主流方法,但是基于這些方法所開發的聲紋識別系統,經常會出現一些顯而易見的錯誤。比如存在以下幾種情況:第一種,聽覺感知上的明顯差異未能區分,比對排名靠前的結果中,存在聽感上存在明顯差異的比對結果;第二種,男女差異未能區分,將一個女性的聲音片段從大量聲紋庫中作比對,比對排名靠前的結果中會出現男性的結果;第三種,同一人跨信道語音的相似度計算結果大于非同一人同信道語音的相似度計算結果。雖然現代自動聲紋識別技術在識別率上有突飛猛進的發展,但是,以上三種明顯的缺陷,會經常存在于自動聲紋比對結果中。
此外,當前及今后相當長的一段時間內,電信網絡詐騙案件頻發、將有增無減,在大部分地區,電信網絡詐騙案件的占比升至50%以上,公安部門借助并全面推廣自動聲紋識別技術打擊電信網絡詐騙(由于案件的特殊性,只能獲得為數不多的語音證據),并依托司法部門出具說話人同一性鑒定報告。為了應對此種日益增加的、急迫的社會需求,提升自動聲紋識別的準確率及其可解釋性,已經刻不容緩。
目前自動聲紋識別算法使用的特征,主要是Fbank(Filter bank Coefficents)特征和MFCC(Mel Frequency Cepstral Coefficents)特征。這些特征是建立在對人耳聽覺機理(人耳對不同頻率的聲波有不同的聽覺敏感)的研究基礎上所提出的,已在語音識別中獲得廣泛應用,同時也在自動聲紋識中得到廣泛應用。但是,在司法語音領域中經常用到的卻不是這些特征,因為這些特征不具備直觀的、可解釋的物理意義。因而如寬帶語譜圖、長時LPC曲線、Pitch曲線、嗓音特征等圖譜得到更多、更廣泛地使用。
在聲紋特征的提取方面,目前已經由2000年以后被廣泛使用的高斯混合模型及特征空間自適應(Gaussian Mixture Model and Feature Space Adaptation)方式,逐步過渡到基于統計機器學習的i-vector身份向量以及基于深度神經網絡的embedding身份向量的提取方式。深度神經網絡方面,主要的網絡結構有時延神經網絡(TDNN)、殘差網絡(ResNet)、時延神經網絡的擴展版(Extended TDNN, E-TDNN)以及分解時延神經網絡(Factorized TDNN, F-TDNN)等。其基本原理都是通過神經網絡提取embedding向量來表征說話人唯一性的身份向量(一般是數百維,比如512維),然后,利用距離度量計算方法(比如PLDA分類器、余弦距離)來衡量兩個embedding向量之間的相似度,以此作為評估不同語音是否屬于同一說話人的依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南政法大學;廈門快商通科技股份有限公司,未經西南政法大學;廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011076711.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種服務器檢驗方法及裝置
- 下一篇:用于空調干衣控制的方法、裝置及空調





