[發明專利]基于性別、國籍和情感信息的聲紋識別方法有效
| 申請號: | 202010011692.5 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111243602B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 黨建武;李凱;王龍標 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/22;G10L25/60;G10L25/63 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 性別 國籍 情感 信息 聲紋 識別 方法 | ||
1.基于性別、國籍和情感信息的聲紋識別方法,其特征在于,包括數據預處理、特征的提取、神經網絡模型參數的訓練以及打分融合工具的使用這4個步驟,具體如下:
1)數據預處理
在數據預處理階段,首先對訓練語句的長度進行限制,對于長度小于1秒的語句直接跳過,對于大于3s的句子進行3秒的隨機裁剪;然后對所有的訓練句子進行歸一化處理;
2)特征的提取
使用Librosa工具提取512維的語譜圖;
3)神經網絡參數訓練
神經網絡的具體結構,在訓練過程中,首先打亂訓練句子的輸入順序,然后隨機選擇128句作為一個訓練batch,數據迭代次數為80;
學習率從0.1到0.001遞減;
4)打分融合工具的使用
打分融合工具需要的訓練文件是每一個系統的開發集和測試集結果;
測試集使用的是VOXCELEB1?test;開發集是基于1211個訓練說話人語句生成的包含4萬個測試對的測試文件;
然后經過100次迭代得到最終的測試集打分結果;
基于說話人嵌入特征提取系統,主要涉及五個方面:1)神經網絡前端輸入特征的選擇;2)神經網絡搭建;3)損失函數的設計;4)融合系統的實施;5)評價指標的選取;6)訓練數據庫的選擇;
1)前端輸入特征的選擇
使用的前端特征是512維的語譜圖,三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸為頻率,橫軸為時間;
具體的提取步驟如下:分幀-快速傅里葉變換-取log-語譜圖;
2)神經網絡結構
采用的神經網絡結構是基于殘差神經網絡;
3)損失函數的設計
使用多任務學習方法來聯合性別和國籍標簽對神經網絡參數的學習進行限制:
其中LMTG表示性別多任務的總損失,LMTN表示國籍多任務的總損失,LMTGN表示性別多任務和國籍多任務的總損失,表示說話人分類使用的A-softmax損失,表示性別分類的交叉熵損失,表示國籍分類的交叉熵損失;
α和β是性別和國籍任務的學習權重;
采用域對抗訓練方法,通過添加一個梯度反轉層來抑制對情感信息的學習,對抗網絡的損失函數如下式所示:
其中LEADT表示情感域對抗訓練的總損失,表示用于情感分類的交叉熵損失;
4)融合系統的實施
使用線性打分融合工具包bosaris_toolkit對上述系統進行打分融合,從訓練數據中隨機生成測試文件用作開發集測試;然后,對于不同的系統得到開發集和測試集相應的測試文件;最后使用linear_fusion_dev_eval_from_files腳本對打分文件進行100次訓練迭代得到最終的融合打分;
5)評價指標的選取
等錯誤率和最小決策代價函數被用來評價系統的優劣;
6)訓練數據庫的選擇
Voxceleb數據集包含了性別和國籍信息。
2.根據權利要求1所述的基于性別、國籍和情感信息的聲紋識別方法,其特征在于,對于多任務性別系統,α設置為1;
對于多任務國籍系統,β設置為0.3;
對于多任務性別國籍系統,α和β都設置為0.1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010011692.5/1.html,轉載請聲明來源鉆瓜專利網。





