[發明專利]一種端到端的文本無關聲紋識別方法及系統在審
| 申請號: | 202111056143.0 | 申請日: | 2021-09-09 |
| 公開(公告)號: | CN113763966A | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 熊盛武;字云飛;馮瑩;王旭;李濤 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/02;G10L17/18 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 端到端 文本 無關 聲紋 識別 方法 系統 | ||
1.一種端到端的文本無關聲紋識別方法,其特征在于,包括:
S1:獲取大量的說話人語音數據,作為訓練數據集;
S2:構建聲紋識別模型,其中,聲紋識別模型包括幀級特征提取層、話語級特征提取層、高階注意力池化層以及全連接層,幀級特征提取層包括三個時延神經網絡TDNN,用于提取輸入語音數據中的幀級特征;話語級特征提取層包括三個門控循環單元GRU,用于對幀級特征進行全局特征提取和時序表示,生成話語級特征;高階注意力池化層包括高階統計池化層和高階注意力池化層,高階統計池化層用于將話語級特征提取層輸出的話語級特征拼接成句級說話人表示,高階注意力池化層用于對幀級特征提取層輸出的幀級特征進行加權計算,得到幀級說話人嵌入;全連接層用于將句級說話人表示與幀級說話人嵌入進行拼接,得到全面的說話人表示;
S3:將訓練數據集輸入聲紋識別模型,并構建AM-softmax損失函數進行訓練,得到訓練好的聲紋識別模型;
S4:利用訓練好的聲紋識別模型對輸入語音進行識別。
2.如權利要求1所述的文本無關聲紋識別方法,其特征在于,第一個TDNN網絡設有基于sinc函數的濾波器,該濾波器用于對原始語音的輸入波形和有限脈沖響應之間執行時域卷積,用以提取最具表征說話人穩定性和唯一性的聲紋特征。
3.如權利要求2所述的文本無關聲紋識別方法,其特征在于,第二個TDNN網絡和第三個TDNN網絡用于根據第一個TDNN網絡的輸出,通過多層次卷積操作提取局部語音特征,得到最終的幀級特征。
4.如權利要求1所述的文本無關聲紋識別方法,其特征在于,GRU用于對幀級特征提取層輸出的幀級特征通過卷積、池化和聚合操作,提取說話人嵌入,作為話語級特征。
5.如權利要1所述的文本無關聲紋識別方法,其特征在于,步驟S3中構建AM-softmax損失函數為:
其中,N表示一個輸入訓練的批量,C表示在訓練數據集中說話人的數量,xi為最后輸出的全面的說話表示,yi表示訓練數據集中第i個說話人樣本的真實標簽,LA,M,S表示AM-softmax損失函數;Z為中間變量;s為縮放因子;表示目標角度;m為一個大于1的整數,cosθj表示計算xj在類別yj的區域。
6.一種端到端的文本無關聲紋識別系統,其特征在于,包括:
訓練數據集獲取模塊,用于獲取大量的說話人語音數據,作為訓練數據集;
聲紋識別模型構建模塊,用于構建聲紋識別模型,其中,聲紋識別模型包括幀級特征提取層、話語級特征提取層、高階注意力池化層以及全連接層,幀級特征提取層包括三個時延神經網絡TDNN,用于提取輸入語音數據中的幀級特征;話語級特征提取層包括三個門控循環單元GRU,用于對幀級特征進行全局特征提取和時序表示,生成話語級特征;高階注意力池化層包括高階統計池化層和高階注意力池化層,高階統計池化層用于將話語級特征提取層輸出的話語級特征拼接成句級說話人表示,高階注意力池化層用于對幀級特征提取層輸出的幀級特征進行加權計算,得到幀級說話人嵌入;全連接層用于將句級說話人表示與幀級說話人嵌入進行拼接,得到全面的說話人表示;
模型訓練模塊,用于將訓練數據集輸入聲紋識別模型,并構建AM-softmax損失函數進行訓練,得到訓練好的聲紋識別模型;
識別模塊,用于利用訓練好的聲紋識別模型對輸入語音進行識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111056143.0/1.html,轉載請聲明來源鉆瓜專利網。





