[發(fā)明專利]一種聲紋鑒權訓練方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811336977.5 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109243466A | 公開(公告)日: | 2019-01-18 |
| 發(fā)明(設計)人: | 毛海濤;鮑捷;呂春;王明;陰陶;戴榮 | 申請(專利權)人: | 成都傅立葉電子科技有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18;G10L17/02 |
| 代理公司: | 成都誠中致達專利代理有限公司 51280 | 代理人: | 曹宇杰 |
| 地址: | 610041 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練模型 加載 聲紋 神經網絡 鑒權 模型構建模塊 模型訓練模塊 神經網絡訓練 數(shù)據(jù)輸入模塊 歸一化處理 余弦相似性 標準文件 參數(shù)加載 存儲模塊 模型加載 模型訓練 配置數(shù)據(jù) 配置文件 聲紋識別 數(shù)據(jù)配置 數(shù)據(jù)評估 損失函數(shù) 訓練評估 訓練特征 音頻配置 音頻文件 語音識別 初始化 傳統(tǒng)的 分類器 三元組 準確率 構建 權重 保存 | ||
一種聲紋鑒權訓練方法及系統(tǒng),方法包括:加載音頻配置文件,對訓練需要的音頻文件及標準文件進行數(shù)據(jù)配置和確認;加載訓練模型參數(shù);構建基于神經網絡的訓練模型,作為語音識別的訓練特征,并完成模型加載;將完成的配置數(shù)據(jù)加載輸入訓練模型;進行模型訓練:使用HE來初始化神經網絡的權重;訓練后輸入SOFTMax分類器進行處理,通過ResCNN進行神經網絡訓練;通過余弦相似性實現(xiàn)三元組損失函數(shù)進行訓練評估;基于歸一化處理數(shù)據(jù)評估的標準;生成聲紋識別的聲紋庫并保存。系統(tǒng)包括音頻配置模塊、參數(shù)加載模塊、模型構建模塊、數(shù)據(jù)輸入模塊、模型訓練模塊、存儲模塊。識別精度高達到94.45%,相比于傳統(tǒng)的i?vector方法,準確率提高了近30%。
技術領域
本發(fā)明涉及生物識別技術,尤其涉及聲紋識別,具體來說,尤其與一種利用深度學習方法的聲紋鑒權訓練方法及系統(tǒng)。
背景技術
傳統(tǒng)的方法i-vector方法認為說話內容可以被分為兩個部分,一個部分依賴于說話者和信道可變性,另一個部分依賴于其它的相關因素。i-vector聲紋識別是一個多步過程,其涉及到使用不同說話者的數(shù)據(jù)來估計一個通用的背景模型,通常是高斯混合模型,收集充分的統(tǒng)計數(shù)據(jù),提取i-vector,最后使用一個分類器來進行識別任務。傳統(tǒng)的方法i-vector方法,業(yè)界的聲紋識別率處于70%左右,且與文本相關。
發(fā)明內容
本發(fā)明提供一種與文本無關的聲紋識別手段,具體是一種利用深度學習方法的聲紋鑒權訓練方法及系統(tǒng),通過構建神經網絡,使用SOFTMax分類和基于余弦相似性的三元組損失進行訓練評估,識別精度高達到94.45%,相比于傳統(tǒng)的i-vector方法,準確率提高了近30%。
本發(fā)明采用以下技術:
一種聲紋鑒權訓練方法,其特征在于,包括以下步驟:
加載音頻配置文件,對訓練需要的音頻文件及標準文件進行數(shù)據(jù)配置和確認;
加載訓練模型參數(shù),參數(shù)包括訓練集大小、訓練的幀數(shù)和音頻語譜圖;
構建基于神經網絡的訓練模型,作為語音識別的訓練特征,并完成模型加載;
將完成的配置數(shù)據(jù)加載輸入訓練模型;
進行模型訓練:
通過預訓練來初始化神經網絡的權重,初始化采用HE初始化;
通過分類器進行處理,分類器采用sofmax多類分類器;
通過余弦相似性的三元組損失函數(shù)進行評估;
通過歸一化處理使評估數(shù)據(jù)標準化,歸一化采用L2-NOMARL;
生成聲紋識別的聲紋庫并保存。
進一步,所述訓練模型參數(shù),包括訓練集大小、訓練的幀數(shù)和音頻語譜圖。
進一步,所述訓練集大小,是每個訓練樣本對應一段語音的連續(xù)語譜圖的時長。
進一步,所述音頻語譜圖,使用的是維度為(32,32,3)的偽圖相。
進一步,所述神經網絡為ResCNN神經網絡的參數(shù)為:卷積塊Conv 3×3、濾波器的尺寸3×3、兩個方向上的零填充1、連續(xù)跨步1×1參數(shù)化。
一種聲紋鑒權訓練系統(tǒng),其特征在于,包括:
音頻配置模塊,用于加載音頻配置文件,對訓練需要的音頻文件及標準文件進行數(shù)據(jù)配置和確認;
參數(shù)加載模塊,用于加載訓練模型參數(shù);
模型構建模塊,用于構建基于神經網絡的訓練模型,作為語音識別的訓練特征,并完成模型加載;
數(shù)據(jù)輸入模塊,用于將音頻配置模塊完成的配置數(shù)據(jù)加載輸入訓練模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都傅立葉電子科技有限公司,未經成都傅立葉電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811336977.5/2.html,轉載請聲明來源鉆瓜專利網。





