[發(fā)明專利]一種說話者確認方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110496856.2 | 申請日: | 2021-05-07 |
| 公開(公告)號: | CN113345444B | 公開(公告)日: | 2022-10-28 |
| 發(fā)明(設計)人: | 陳增照;鄭秋雨;何秀玲;戴志誠;張婧;孟秉恒;李佳文;吳瀟楠;朱勝虎 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L17/04;G10L17/02;G10L17/08;G06N3/04;G06N3/08 |
| 代理公司: | 武漢華之喻知識產(chǎn)權代理有限公司 42267 | 代理人: | 鄧彥彥;廖盈春 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 說話 確認 方法 系統(tǒng) | ||
1.一種說話者確認方法,其特征在于,包括如下步驟:
對說話者的音頻信息進行預處理,將所述音頻信息轉(zhuǎn)換為預設格式的數(shù)據(jù);
將說話者音頻信息對應的預設格式的數(shù)據(jù)輸入到訓練好的基于空間注意力機制的深度嵌套殘差神經(jīng)網(wǎng)絡,以得到幀級別的說話者向量;所述基于空間注意力機制的深度嵌套殘差神經(jīng)網(wǎng)絡包括:四層每層包含兩個嵌套殘差塊的嵌套殘差神經(jīng)網(wǎng)絡和空間注意力機制;在嵌套殘差神經(jīng)網(wǎng)絡之后引入空間注意力機制,所述空間注意力機制基于空間維度在注意力模塊中引入平均池化和最大池化,并將兩部分池化結(jié)果合并,以保留有用信息減少參數(shù)規(guī)模,以及在注意力模塊的激活層中使用sigmoid函數(shù),以獲得幀級別的說話者向量;
基于所述幀級別的說話者向量生成話語級別的說話者向量,并計算所述話語級別的說話者向量和目標說話者向量的余弦相似度,以判斷所述說話者是否為目標說話者;所述目標說話者向量是預先獲取的。
2.根據(jù)權利要求1所述的說話者確認方法,其特征在于,所述對說話者的音頻信息進行預處理,將所述音頻信息轉(zhuǎn)換為預設格式的數(shù)據(jù),具體為:
將說話者的WAV格式音頻文件采用音頻轉(zhuǎn)換技術轉(zhuǎn)換為flac格式文件,將flac格式文件進行預處理,得到包含說話者全部信息的npy格式數(shù)據(jù)。
3.根據(jù)權利要求1所述的說話者確認方法,其特征在于,每個嵌套殘差塊中包含兩個子殘差塊,每個子殘差塊包含兩個單元,每個單元是一個構(gòu)造塊;每兩個嵌套殘差塊的前面放置一個卷積層;
兩個嵌套的子殘差塊實現(xiàn)堆疊功能,具體公式為:
H1(x)=F1(x)+x
H2(x)=F2(x)+H1(x)
H(x)=H2(x)+x
其中,x表示第一個嵌套殘差塊的輸入數(shù)據(jù),F(xiàn)1(x)表示嵌套殘差塊中第一個子殘差塊的輸出,H1(x)表示F1(x)和x的結(jié)合數(shù)據(jù),F(xiàn)2(x)表示嵌套殘差塊中第二個子殘差塊的輸出,H2(x)表示F2(x)和H1(x)的結(jié)合數(shù)據(jù),H(x)表示兩個嵌套的殘差塊的輸出。
4.根據(jù)權利要求1所述的說話者確認方法,其特征在于,在嵌套殘差塊之后引入空間注意力機制,以及在注意力模塊的激活層中使用sigmoid函數(shù),以獲得幀級別的說話者向量,具體公式為:
F″=f{avg_pool(V),max_pool(V)}
F′=σ(F″)
F=Multiply(V,F(xiàn)′)
其中,V表示經(jīng)過嵌套殘差神經(jīng)網(wǎng)絡輸出的說話者向量,avg_pool表示平均池化操作,max_pool表示最大池化操作,f{}表示把兩個池化操作的結(jié)果進行合并得到新的說話者向量F″;F′表示對F″加激活函數(shù)后得到的說話者向量;F表示幀級別的說話者向量,Multiply表示加乘操作。
5.根據(jù)權利要求1至4任一項所述的說話者確認方法,其特征在于,所述計算所述話語級別的說話者向量和目標說話者向量的余弦相似度,以判斷所述說話者是否為目標說話者,具體為:
對所述余弦相似度的概率值設置閾值,當所述余弦相似度的概率值大于所述閾值時,則判斷所述說話者為目標說話者,否則判斷所述說話者不是目標說話者。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經(jīng)華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110496856.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





