[發明專利]具備未知類別內部劃分能力的聲紋開集識別方法在審
| 申請號: | 202011566172.7 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112735435A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 莊旭;袁鑫;尹可鑫;甘翼;叢迅超 | 申請(專利權)人: | 西南電子技術研究所(中國電子科技集團公司第十研究所) |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L17/22 |
| 代理公司: | 成飛(集團)公司專利中心 51121 | 代理人: | 郭純武 |
| 地址: | 610036 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具備 未知 類別 內部 劃分 能力 聲紋 識別 方法 | ||
本發明公開一種具備未知類別內部劃分能力的聲紋開集識別方法,具有較高的準確率和較好的適用性。本發明通過下述計算方案實現:將不同說話人的語音數據作為聲紋開集識別系統的輸入,逐條計算語音數據的梅爾頻率倒譜系數特征,采用廣義端到端損失函數訓練一個基于時序的音頻編碼模塊GE2E,有效消除說話者之間歧義;通過GE2E輸出的音頻數據編碼,結合多元高斯模型,訓練概率階梯模型CGDL,判斷任意音頻數據是否屬于已知類別,對判定為已知類別的音頻數據進行分類;對CGDL判別為未知類別的音頻數據,構造并訓練無界交錯狀態神經網絡,在線聚類音頻數據,得到的聚類數目即是說話人的數目,某一聚類中的所有音頻數據從屬同一說話人。
技術領域
本發明屬于聲紋開集識別技術領域,特別是涉及一種具備未知類別內部劃分能力的聲紋開集識別方法。
背景技術
隨著信息技術的發展,人們對身份識別技術的需求越來越多,身份識別在信息安全領域發揮著越來越重要的作用,對其安全可靠性的要求也越來越嚴格。基于傳統密碼認證的身份識別技術在實際信息網絡應用中已經暴露出許多不足之處,而基于生物特征辨別的身份識別技術以其特有的穩定性,唯一性和方便性,展現出極大的優越性,已成為身份識別領域中的重要研究方向。聲紋識別(Voiceprint Recognition,VPR),也稱為說話人識別(Speaker Recognition),說話人識別技術是生物識別技術的一種,該技術的重點是根據說話人之間個性特征的差異來區分說話人。說話人識別技術按任務類型分為說話人辨認(Speaker Identification)和說話人確認(Speaker Verification)。前者用以判斷某段語音是若干人中的哪一個所說的,是“多選一”問題;而后者用以確認某段語音是否是指定的某個人所說的,是“一對一判別”問題。語音信號處理、聲紋特征提取、聲紋建模、聲紋比對、判別決策等。不同的任務和應用會使用不同的聲紋識別技術,不管是辨認還是確認,都需要先對說話人的聲紋進行建模,這就是一個的“訓練”或“學習”過程。說話人識別技術按識別方式可分“與文本有關”和“與文本無關”兩種。文本有關型的聲紋識別系統要求系統錄制被判別人一定數量的規定文本內容的聲音,只要判別人發出相關內容的聲音就可以實現判別功能。文本無關型的聲紋識別系統則不規定說話人的發音內容,只要系統中錄有說話人的聲音,就能夠識別是否為該說話人。目前與文本無關的閉集說話人識別技術已經取得了較高的識別率,但是對于開集識別而言,識別率仍然較低。且對判定為未知類的語音數據,未進一步確定說話人數目及其從屬與哪一位說話人。盡管至今已有許多介紹聲紋識別技術及應用的相關論文發表,但是這些論文大多是對“閉集”的識別效果提升,較少考慮“開集”場景下的聲紋識別,并且對于未對未知類做進一步細分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南電子技術研究所(中國電子科技集團公司第十研究所),未經西南電子技術研究所(中國電子科技集團公司第十研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011566172.7/2.html,轉載請聲明來源鉆瓜專利網。





