[發明專利]一種基于后端模型的聲紋識別優化方法和相關裝置有效
| 申請號: | 201911303022.4 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111028847B | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 鄭穎龍;賴蔚蔚;吳廣財;鄭杰生;高尚;林嘉鑫;周昉昉 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電力信息科技有限公司 |
| 主分類號: | G10L17/06 | 分類號: | G10L17/06;G10L25/24;G06K9/62 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 黃忠 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 后端 模型 聲紋 識別 優化 方法 相關 裝置 | ||
本申請公開了一種基于后端模型的聲紋識別優化方法和相關裝置,包括:構建聲紋識別PLDA模型,聲紋識別PLDA模型的目標函數為和分別為方差矩陣Φb和方差矩陣Φw的逆矩陣,λ和β為超級參數;將對目標語音數據進行特征向量提取后得到的高維特征向量輸入到聲紋識別模型中進行聲紋識別。解決了現有的聲紋識別系統中,由于數據噪聲和數據樣本不足,導致基于PLDA的后端模型的兩個方差矩陣不準確,使得PLDA模型不能反映實際數據,降低了聲紋識別的準確率的技術問題。
技術領域
本申請涉及聲紋識別技術領域,尤其涉及一種基于后端模型的聲紋識別優化方法和相關裝置。
背景技術
聲紋識別技術能夠從語音中識別出說話人的身份,在用戶登錄、用戶認證和公共安全等領域得到廣泛應用。聲紋識別主要包含聲紋模型訓練與聲紋識別兩個階段,在聲紋模型訓練階段,系統學習如何從一段語音信號中提取有差異性的高維特征向量(稱為聲紋向量),根據學習到的高維特征向量繼續學習判斷兩段聲音的相似性(后端模型識別),因此,實際上在聲紋模型訓練階段,會訓練兩個模型:聲紋向量提取模型和后端模型,在聲紋識別階段,系統利用在訓練階段已經訓練好的“聲紋向量提取模型”和“后端模型”,首先利用聲紋向量提取模型對輸入的語音信號提取高維特征,然后利用后端模型繼續評判兩個高維特征向量的相似性。在后端模型中,常使用PLDA模型,假設x是服從高斯分布,并且高斯分布的均值y是另一個均值為m、方差為Φb的高斯分布,方差為Φw,其PLDA模型的數學表示為:P(x|y)=N(x|y,Φw),p(y)=N(y|m,Φb),PLDA模型的參數可以通過EM算法從訓練數據中得到。但是由于在實際應用中,數據噪聲和數據樣本不夠等原因導致訓練出來的兩個方差矩陣Φb和Φw并不準確,導致PLDA模型不能反映實際數據的情況,降低了聲紋識別的準確率。
發明內容
本申請提供了一種基于后端模型的聲紋識別優化方法和相關裝置,用于解決現有的聲紋識別系統中,由于數據噪聲和數據樣本不足,導致基于PLDA的后端模型的兩個方差矩陣不準確,使得PLDA模型不能反映實際數據,降低了聲紋識別的準確率的技術問題。
有鑒于此,本申請第一方面提供了一種基于后端模型的聲紋識別優化方法,包括:
構建聲紋識別PLDA模型,所述聲紋識別PLDA模型的目標函數為和分別為方差矩陣Φb和方差矩陣Φw的逆矩陣,λ和β為超級參數;
將對目標語音數據進行特征向量提取后得到的高維特征向量輸入到所述聲紋識別模型中進行聲紋識別。
可選地,所述將對目標語音數據進行特征向量提取后得到的高維特征向量輸入到所述聲紋識別模型中進行聲紋識別,之前還包括:
提取所述目標語音數據中的梅爾頻率倒譜系數特征;
基于高維向量提取模型從所述梅爾頻率倒譜系數特征中提取預置長度的高維特征向量。
可選地,所述提取所述目標語音數據中的梅爾頻率倒譜系數特征,之前還包括:
對所述目標語音數據進行預處理,剔除無效語音數據。
可選地,所述對所述目標語音數據進行預處理,剔除無效語音數據,包括:
基于時頻分析的方法對所述目標語音數據進行分段;
基于高斯混合模型判斷每一段語音數據是否屬于無效語音數據,若是,則將無效語音數據剔除。
本申請第二方面提供了一種基于后端模型的聲紋識別優化裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電力信息科技有限公司,未經廣東電網有限責任公司;廣東電力信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911303022.4/2.html,轉載請聲明來源鉆瓜專利網。





