[發明專利]一種聲紋鑒權訓練方法及系統在審
| 申請號: | 201811336977.5 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN109243466A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 毛海濤;鮑捷;呂春;王明;陰陶;戴榮 | 申請(專利權)人: | 成都傅立葉電子科技有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18;G10L17/02 |
| 代理公司: | 成都誠中致達專利代理有限公司 51280 | 代理人: | 曹宇杰 |
| 地址: | 610041 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練模型 加載 聲紋 神經網絡 鑒權 模型構建模塊 模型訓練模塊 神經網絡訓練 數據輸入模塊 歸一化處理 余弦相似性 標準文件 參數加載 存儲模塊 模型加載 模型訓練 配置數據 配置文件 聲紋識別 數據配置 數據評估 損失函數 訓練評估 訓練特征 音頻配置 音頻文件 語音識別 初始化 傳統的 分類器 三元組 準確率 構建 權重 保存 | ||
1.一種聲紋鑒權訓練方法,其特征在于,包括以下步驟:
S1、加載音頻配置文件,對訓練需要的音頻文件及標準文件進行數據配置和確認;
S2、加載訓練模型參數;
S3、構建基于神經網絡的訓練模型,作為語音識別的訓練特征,并完成模型加載;
S4、將S1完成的配置數據加載輸入訓練模型;
S5、進行模型訓練:
S51、通過預訓練來初始化神經網絡的權重,
S52、通過分類器進行處理,
S53、通過余弦相似性的三元組損失函數進行評估,
S54、通過歸一化處理使評估數據標準化;
S6、生成聲紋識別的聲紋庫并保存。
2.根據權利要求1所述的聲紋鑒權訓練方法,其特征在于:所述訓練模型參數,包括訓練集大小、訓練的幀數和音頻語譜圖。
3.根據權利要求2所述的聲紋鑒權訓練方法,其特征在于:所述音頻語譜圖,使用的是維度為(32,32,3)的偽圖相。
4.根據權利要求1所述的聲紋鑒權訓練方法,其特征在于:所述分類器采用softmax多類分類器。
5.根據權利要求1所述的聲紋鑒權訓練方法,其特征在于:所述神經網絡為ResCNN神經網絡,參數為:卷積塊Conv 3×3、濾波器的尺寸3×3、兩個方向上的零填充1、連續跨步1×1參數化。
6.根據權利要求1所述的聲紋鑒權訓練方法,其特征在于:所述三元組損失函數為:其中,a為可調范圍在0~2的參數,表示同類樣本Positive和Anchor嵌入式向量之間的余弦,表示異類樣本Negative和Anchor嵌入式向量之間的余弦。
7.根據權利要求6所述的聲紋鑒權訓練方法,其特征在于:所述Positive、Negative、Anchor為從樣本中隨機取樣的三個樣本,其中,Positive和Anchor是同類樣本,Negative和Anchor是異類樣本。
8.一種聲紋鑒權訓練系統,其特征在于,包括:
音頻配置模塊,用于加載音頻配置文件,對訓練需要的音頻文件及標準文件進行數據配置和確認;
參數加載模塊,用于加載訓練模型參數;
模型構建模塊,用于構建基于神經網絡的訓練模型,作為語音識別的訓練特征,并完成模型加載;
數據輸入模塊,用于將音頻配置模塊完成的配置數據加載輸入訓練模型;
模型訓練模塊,用于進行模型訓練;
存儲模塊,用于將生成的聲紋識別聲紋庫進行保存。
9.根據權利要求8所述的聲紋鑒權訓練系統,其特征在于,所述模型訓練模塊包括:
預訓單元,用于通過預訓練來初始化神經網絡的權重;
分類單元,用于通過分類器進行處理;
評估單元,用于通過余弦相似性的三元組損失函數進行評估;
歸一化單元,用于通過歸一化處理使評估數據標準化。
10.根據權利要求8所述的聲紋鑒權訓練系統,其特征在于,所述訓練模型模塊,用于構建基于ResCNN神經網絡的訓練模型,其中,ResCNN神經網絡的參數為:卷積塊Conv 3×3、濾波器的尺寸3×3、兩個方向上的零填充1、連續跨步1×1參數化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都傅立葉電子科技有限公司,未經成都傅立葉電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811336977.5/1.html,轉載請聲明來源鉆瓜專利網。





