[發明專利]一種基于3D卷積的孿生網絡聲紋識別方法有效
| 申請號: | 201911318077.2 | 申請日: | 2019-12-19 |
| 公開(公告)號: | CN111048097B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 付翔;梅少輝;楊學軍;耿云浩;魏江 | 申請(專利權)人: | 中國人民解放軍空軍研究院通信與導航研究所;西北工業大學 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/04;G10L17/06;G10L17/18;G06N3/04;G06N3/08 |
| 代理公司: | 西安維賽恩專利代理事務所(普通合伙) 61257 | 代理人: | 劉艷霞 |
| 地址: | 100085 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 孿生 網絡 聲紋 識別 方法 | ||
1.一種用于聲紋識別的基于3D卷積的孿生網絡的訓練方法,其特征在于,包括如下步驟:
步驟1.1、構建訓練樣本數據集:選取多個不同的音頻數據,將每一個音頻數據轉化為一個與之對應的三維張量,所述三維張量即為MFLC特征;多個所述三維張量即組成訓練樣本數據集;
對所述三維張量進行隨機兩兩配對組合,產生的配對組合共有個,其中:m為三維張量的個數;
步驟1.2、搭建Sia-Net網絡;
步驟1.3、將所述步驟1.1中的配對組合輸入所述Sia-Net網絡,得到與之對應的第一S特征,多個所述第一S特征組成的集合即為樣本集合;然后,選擇Sia-Net網絡中的一個,并固定參數,得訓練后的Sia-Net網絡;
步驟1.4、構建CNN卷積網絡;
步驟1.5、將步驟1.3中的所述第一S特征輸入到所述CNN卷積網絡;
步驟1.6、提取所述CNN卷積網絡的倒數第二層輸出的樣本的第一D特征,多個所述樣本的第一D特征組成的集合即為語音模型匹配數據庫;然后,選擇去除Softmax層的CNN卷積網絡,并固定參數,得訓練后的CNN卷積網絡;
步驟1.7、即得訓練后的用于聲紋識別的基于3D卷積的孿生網絡;
所述一種用于聲紋識別的基于3D卷積的孿生網絡包括:
特征提取單元:用于將音頻數據轉化為三維張量,所述三維張量即為MFLC特征;
Sia-Net網絡:用于處理所述的MFLC特征,縮短同一說話人之間數據的特征距離,增大不同說話人之間數據的特征距離;
CNN網絡:用于建立每一個說話人的模型庫;
預測單元:用于測試音頻數據的說話人身份;
所述Sia-Net網絡:為兩個,每一個所述Sia-Net網絡均包括:依次相連接的三個3D卷積層、一個池化層、四個3D卷積層、一個連接層,一個池化層、一個Flatten層和一個全連接層;
所述CNN網絡包括依次相連接的三個全連接層和一個Softmax層;
所述距離為歐氏距離。
2.一種基于3D卷積的孿生網絡聲紋識別方法,采用權利要求1所述的一種用于聲紋識別的基于3D卷積的孿生網絡的訓練方法,其特征在于,包括如下步驟:
步驟2.1、采集音頻數據,提取出MFLC特征;
步驟2.2、將所述MFLC特征輸入到訓練后的基于3D卷積的孿生網絡中,由訓練后的Sia-Net網絡提取第二S特征,將第二S特征輸入訓練后的所述CNN卷積網絡中,提取出第二D特征;
步驟2.3、將所述第二D特征與所述語音模型匹配數據庫中的樣本的第一D特征進行匹配,確定并輸出匹配結果。
3.根據權利要求2所述的一種基于3D卷積的孿生網絡聲紋識別方法,其特征在于,所述步驟2.1的具體過程為:
對音頻數據進行頻域變化:對輸入的音頻數據進行傅里葉變換,得到對應的矩陣數據;
頻域濾波:采用MEL濾波器組對所述矩陣數據進行頻域濾波,得濾波后的數據;
對濾波后的數據進行對數運算,得MFLC特征。
4.根據權利要求2或3所述的一種基于3D卷積的孿生網絡聲紋識別方法,其特征在于,所述第二D特征和第一D特征均為余弦距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍空軍研究院通信與導航研究所;西北工業大學,未經中國人民解放軍空軍研究院通信與導航研究所;西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911318077.2/1.html,轉載請聲明來源鉆瓜專利網。





