[發明專利]一種端到端的文本無關聲紋識別方法及系統在審
| 申請號: | 202111056143.0 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113763966A | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 熊盛武;字云飛;馮瑩;王旭;李濤 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/02;G10L17/18 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 端到端 文本 無關 聲紋 識別 方法 系統 | ||
本發明提供了一種端到端的文本無關聲紋識別方法及系統,通過設計基于Sinc函數的濾波器對原始語音樣本捕獲重要的窄帶揚聲器特性;然后使用時延神經網絡(TDNN)和門控循環單元(GRU)生成不同層次的互補說話人信息的混合神經網絡結構,采用多級池化策略,池化層加入注意力機制(Attention),從時延神經網絡層和門控循環單元層提取最具有表征說話人幀級、話語級特征信息,對說話人向量提取層進行正則化處理;接著通過AM?softmax損失函數進行訓練,最后通過嵌入模型與識別模型相似度計算實現端到端文本無關聲紋識別過程。從而提高端到端文本無關聲紋識別的準確率和適用性。
技術領域
本發明涉及語音信號處理及深度學習領域,尤其涉及一種端到端的文本無關聲紋識別方法及系統。
背景技術
信息化迅速發展的今天,身份識別的需求越來越廣泛。聲紋識別是一種生物識別技術,它利用人類語音的獨特特征對身份進行識別,作為第三大生物特征識別技術,聲紋識別開始進入人們的生活。目前聲紋識別技術已經在部分銀行投入使用,用戶登錄手機銀行APP,進行轉賬、支付等交易。以新出現的聲紋識別為例,除了進入金融領域、偵查領域外,也開始進入公共安全、智能家居、智能汽車、智慧教育、智能社區等行業,讓相關行業在原有識別技術的基礎上實現了互補、突破和語音智能化等。聲紋識別也是實現人機交互第一關鍵技術點。
本申請發明人在實施本發明的過程中,發現現有技術中存在如下技術問題:
基于目前技術對原始語音信號的特征提取方法不夠成熟,由此,在進行文本無關的聲紋識別過程中識別精準度仍然需要提高。上述現有技術中常用的文本無關聲紋識別主要還是基于傳統的語音特征提取方法,如:MFCC、FBank等,或者是模型的融合和疊加,這樣的文本無關聲紋識別方法識別精準度仍然不高或過于復雜的模型增加了延時而無法應用于工業界,影響用戶的體驗和感受。
發明內容
本發明提出了一種端到端的文本無關聲紋識別方法及系統,用于解決或者至少部分解決現有技術中的方法存在聲紋識別精度不高的技術問題。
為了解決上述技術問題,本發明第一方面提供了一種端到端的文本無關聲紋識別方法,包括:
S1:獲取大量的說話人語音數據,作為訓練數據集;
S2:構建聲紋識別模型,其中,聲紋識別模型包括幀級特征提取層、話語級特征提取層、高階注意力池化層以及全連接層,幀級特征提取層包括三個時延神經網絡TDNN,用于提取輸入語音數據中的幀級特征;話語級特征提取層包括三個門控循環單元GRU,用于對幀級特征進行全局特征提取和時序表示,生成話語級特征;高階注意力池化層包括高階統計池化層和高階注意力池化層,高階統計池化層用于將話語級特征提取層輸出的話語級特征拼接成句級說話人表示,高階注意力池化層用于對幀級特征提取層輸出的幀級特征進行加權計算,得到幀級說話人嵌入;全連接層用于將句級說話人表示與幀級說話人嵌入進行拼接,得到全面的說話人表示;
S3:將訓練數據集輸入聲紋識別模型,并構建AM-softmax損失函數進行訓練,得到訓練好的聲紋識別模型;
S4:利用訓練好的聲紋識別模型對輸入語音進行識別。
在一種實施方式中,第一個TDNN網絡設有基于sinc函數的濾波器,該濾波器用于對原始語音的輸入波形和有限脈沖響應之間執行時域卷積,用以提取最具表征說話人穩定性和唯一性的聲紋特征。
在一種實施方式中,第二個TDNN網絡和第三個TDNN網絡用于根據第一個TDNN網絡的輸出,通過多層次卷積操作提取局部語音特征,得到最終的幀級特征。
在一種實施方式中,GRU用于對幀級特征提取層輸出的幀級特征通過卷積、池化和聚合操作,提取說話人嵌入,作為話語級特征。
在一種實施方式中,步驟S3中構建AM-softmax損失函數為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111056143.0/2.html,轉載請聲明來源鉆瓜專利網。





