[發明專利]一種基于3D卷積的孿生網絡聲紋識別方法有效
| 申請號: | 201911318077.2 | 申請日: | 2019-12-19 |
| 公開(公告)號: | CN111048097B | 公開(公告)日: | 2022-11-29 |
| 發明(設計)人: | 付翔;梅少輝;楊學軍;耿云浩;魏江 | 申請(專利權)人: | 中國人民解放軍空軍研究院通信與導航研究所;西北工業大學 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/04;G10L17/06;G10L17/18;G06N3/04;G06N3/08 |
| 代理公司: | 西安維賽恩專利代理事務所(普通合伙) 61257 | 代理人: | 劉艷霞 |
| 地址: | 100085 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 孿生 網絡 聲紋 識別 方法 | ||
本發明公開了一種用于聲紋識別的基于3D卷積的孿生網絡,包括:特征提取單元:用于將音頻數據轉化為三維張量,所述三維張量即為MFLC特征。Sia?Net網絡:用于處理所述的MFLC特征,縮短同一說話人之間數據的特征距離,增大不同說話人之間數據的特征距離。CNN網絡:用于建立每一個說話人的模型庫。預測單元:用于測試音頻數據的說話人身份。使用該網絡進行聲紋識別,既可以對語音信息進行充分的監督學習,還可以兼顧語音信息的時域信息,進一步提高了聲紋識別的正確率。
【技術領域】
本發明屬于聲紋識別技術領域,尤其涉及一種基于3D卷積的孿生網絡聲紋識別方法。
【背景技術】
聲紋識別(Speaker Verification)是通過分析錄音設備記錄的說話人的語音特點來鑒別說話人身份的一種算法。聲紋識別可進一步的分為文本相關聲紋識別和文本無關聲紋識別,文本相關聲紋識別需要說話人說出預先指定的內容,而文本無關聲紋識別對說話人的語音內容不作要求。
現在聲紋識別領域應用最多的框架是無監督高斯混合模型(GMM),GMM模型是一種統計模型,在數據不足的情況下,GMM模型很難建立說話人的空間分布,因此后來有學者提出基于GMM的高斯混合通用背景模型(GMM-UBM),GMM-UBM引入了背景模型,進一步提高了識別精度。一些基于GMM-UBM的方法包括i向量(i-vector)已經在聲紋識別領域展現出了自己的高效性。盡管現有的方法可以高效的完成聲紋識別的任務,但目前的算法仍有自己的缺點,其中最主要的是現有算法無法有效的利用說話人的獨特的語音特點,這主要是因為GMM模型本身是非監督模型。當前,一些算法開始采用監督的模型來改進GMM等非監督算法,例如基于GMM-UBMs的SVM分類模型,PLDA i-vectors模型。還有一些學者收到深度學習的啟發,講DNNs網絡從語義識別領域遷移到聲紋識別領域,并取得了不錯的效果。但是這些算法都沒有考慮不同說話人可能存在相似語音,同一說話人也可能在不同狀態下說話差異較大的情況。而在基于深度學習的聲紋識別方法中,雖然卷積神經網絡CNNs已經作為主要的特征提取的網絡被廣泛的應用,但是目前的CNNs特征提取網絡知識利用的為一維卷積和二維卷積的方法。但是一維卷積和二維卷積的方法忽略語音信息的空域和時域特征,識別率不高。
【發明內容】
本發明的目的是提供一種用于聲紋識別的基于3D卷積的孿生網絡,既可以對語音信息進行充分的監督學習,還可以兼顧語音信息的時域信息,進一步提高了聲紋識別的正確率。
本發明采用以下技術方案:一種用于聲紋識別的基于3D卷積的孿生網絡,包括:
特征提取單元:用于將音頻數據轉化為三維張量,三維張量即為MFLC特征。
Sia-Net網絡:用于處理MFLC特征,縮短同一說話人之間數據的特征距離,增大不同說話人之間數據的特征距離。
CNN網絡:用于建立每一個說話人的模型庫。
預測單元:用于測試音頻數據的說話人身份。
進一步地,該Sia-Net網絡:為兩個,每一個Sia-Net網絡均包括:依次相連接的三個3D卷積層、一個池化層、四個3D卷積層、一個連接層、一個池化層、一個Flatten層和一個全連接層。
進一步地,該CNN網絡包括依次相連接的三個全連接層和一個Softmax層。
進一步地,該距離為歐氏距離。
本發明還公開了上述的一種用于聲紋識別的基于3D卷積的孿生網絡的訓練方法,包括如下步驟:
步驟1.1、構建訓練樣本數據集:選取多個不同的音頻數據,將每一個音頻數據轉化為一個與之對應的三維張量,所述三維張量即為MFLC特征;多個所述三維張量即組成訓練樣本數據集;
對所述三維張量進行隨機兩兩配對組合,產生的配對組合共有C2m個,其中:m為三維張量的個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍空軍研究院通信與導航研究所;西北工業大學,未經中國人民解放軍空軍研究院通信與導航研究所;西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911318077.2/2.html,轉載請聲明來源鉆瓜專利網。





