[發明專利]基于性別、國籍和情感信息的聲紋識別方法有效
| 申請號: | 202010011692.5 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111243602B | 公開(公告)日: | 2023-06-06 |
| 發明(設計)人: | 黨建武;李凱;王龍標 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/22;G10L25/60;G10L25/63 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 性別 國籍 情感 信息 聲紋 識別 方法 | ||
本發明公開了基于性別、國籍和情感信息的聲紋識別方法,步驟具體如下:首先數據預處理,其次特征的提取,然后神經網絡參數訓練:神經網絡的具體結構,在訓練過程中,首先打亂訓練句子的輸入順序,然后隨機選擇128句作為一個訓練batch,數據迭代次數為80;打分融合工具需要的訓練文件是每一個系統的開發集和測試集結果;測試集使用的是VOXCELEB1?test;開發集是基于1211個訓練說話人語句生成的包含4萬個測試對的測試文件;然后經過100次迭代得到最終的測試集打分結果。本發明提升了識別率。
技術領域
本發明涉及文本無關的說話人識別領域,特別涉及到多任務和對抗域適應訓練,具體為一種基于性別、國籍和情感信息的聲紋識別方法。
背景技術
語音包含了不同種類的屬性,如內容,性別,國籍,情感,年齡等等。在進行說話人確認任務時,這些屬性會影響說話人識別的準確率。主觀上來講,性別和國籍信息可以為說話人的身份提供多重驗證從而增加識別率,然而當同一個說話人的不同句子所包含的情感不一致時,將會嚴重影響說話人個性化特征的提取,從而降低系統識別率。
現有的方法多從三個方面提升系統性能:1)增加訓練數據量;2)增加網絡的深度或者復雜度;3)設計更加巧妙的損失函數;但是由于神經網絡的學習能力有限,為了在不增加訓練復雜度的情況下更進一步提升系統的性能,在訓練階段增加更多的限制條件是必不可少的。所以本發明提出了使用多任務學習(MTL)和域對抗訓練(ADT)的神經網絡學習方法對不同屬性信息進行強化學習。同時研究語音中其他屬性對說話人特征的影響對提升系統識別率也有著重要的意義。
發明內容
本發明的目的在于克服現有技術的不足,提供一種基于性別、國籍和情感信息的聲紋識別方法。
為了使用性別,國籍和情感標簽在神經網絡訓練過程中加入更多的限制。本發明設計的說話人嵌入特征提取系統主要涉及五個方面:1)神經網絡前端輸入特征的選擇;2)神經網絡搭建;3)損失函數的設計;4)融合系統的實施;5)評價指標的選取;6)訓練數據庫的選擇;
1)前端輸入特征的選擇
本發明使用的前端特征是512維的語譜圖,語譜圖是一種三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸為頻率,橫軸為時間。任一給定頻率成分在給定時刻的強弱用相應點的灰度或色調的深淺來表示。語譜圖中顯示了大量的與說話人特性有關的信息,它綜合了頻譜圖和時域波形的特點,明顯地顯示出語音頻譜隨時間的變化情況。具體的提取步驟如下:分幀—快速傅里葉變換(FFT)—取log—語譜圖。
2)神經網絡結構
近幾年來,由于卷積神經網絡強大的特征抽象能力被廣泛用于圖像和語音領域進行特征的抽象提取。但是隨著神經網絡深度的逐漸增加,網絡出現退化現象。殘差神經網絡的提出正是為了解決此問題。本發明采用的神經網絡結構是基于殘差神經網絡,具體的描述如圖1所示。
三個一維的卷積層和三個殘差塊交替排列來生成幀級別的特征,對于三個卷積層,卷積核的大小是(5×5),通道數從64到256。對于每一個殘差塊,都包含了兩個卷積核大小為(3×3)步長為(1×1)的卷積層。在平均池化層之后,分段級別的說話人嵌入特征從一個1024維的全連接層中提出。第二個全連接層將1024維的嵌入特征映射為1211維,1211和訓練數據說話人個數相等以便用來計算說話人分類的損失函數。
3)損失函數的設計
性別和國籍信息為說話人的身份提供了多重驗證。為了增加說話人嵌入特征中所包含的性別和國籍信息,本發明使用多任務學習方法(圖2左)來聯合性別和國籍標簽對神經網絡參數的學習進行限制。網絡結構在上小節中進行了詳細的描述。其中說話人分類損失使用的是近幾年提出的A-softmax損失,性別和國籍的分類使用的是交叉熵損失。訓練的總損失如下式所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010011692.5/2.html,轉載請聲明來源鉆瓜專利網。





