[發明專利]基于重排序超向量和殘差網絡的說話人識別方法及其裝置有效
| 申請號: | 201810257464.9 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108694949B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 陳金坤;蔡丹蔚;蔡煒城;李明 | 申請(專利權)人: | 佛山市順德區中山大學研究院;廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/02;G10L17/18;G10L17/06;G10L25/24 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 左恒峰 |
| 地址: | 528399 廣東省佛山市順德區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 排序 向量 網絡 說話 識別 方法 及其 裝置 | ||
1.基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,包括以下步驟:
S1、對語音樣本進行語音信號檢測,提取及優化MFCC特征;
S2、基于TDNN聲學模型處理MFCC特征,從而得到均值中心化超向量;
S3、根據senone狀態的相似性對均值中心化超向量進行重排序;
S4、以重排序后的均值中心化超向量作為外部神經網絡的輸入,對外部神經網絡進行訓練,其中外部神經網絡的輸入端為殘差網絡;從外部神經網絡的輸出端獲取說話人信息的深度編碼特征;
S5、對說話人信息的深度編碼特征進行PLDA建模,從而得到PLDA模型;
S6、計算多個語音樣本的深度編碼特征在PLDA模型上的似然得分,并比較對應的似然得分是否相同,若相同,則判定對應的說話人為同一個人,否則不為同一個人;
其中,所述步驟S2中,基于TDNN聲學模型處理MFCC特征,從而得到均值中心化超向量,包括:
S21、基于TDNN聲學模型提取MFCC特征中每一幀在音素層單元上的后驗概率,得到:
其中,MFCC特征為{y1,y2,...,yL},L為幀數,ci是TDNN聲學模型中的第i個senone狀態,μi是對應第i個senone狀態的均值向量,P(ci|yt)是第t幀特征yt在音素層單元上的后驗概率,Ni和Fi分別是MFCC特征在第t幀下的零階和一階的Baum-Welch統計量。
S22、利用Ni對Fi的均值中心化向量進行權重估計,得到Fi的歸一化均值中心化向量
S23、將所有幀的拼接,得到均值中心化超向量
2.根據權利要求1所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述步驟S1中,對語音樣本進行語音信號檢測,包括:采用VAD去除語音樣本中的靜音與噪聲部分。
3.根據權利要求1或2所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述步驟S1中,提取及處理MFCC特征,包括:提取向量維度為60的MFCC特征,采用特征均值方差歸一化方法對MFCC特征進行優化。
4.根據權利要求1所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述為K×D矩陣,包括3個維度為的子矩陣,所述3個子矩陣分別對應梅爾頻率倒譜系數及其一階、二階導數,其中K為senone狀態的個數,D為MFCC特征的向量維度。
5.根據權利要求4所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述步驟S3中,根據senone狀態的相似性對均值中心化超向量進行重排序,包括:采用層次聚類或決策樹聚類方法將相似的senone狀態聚集到相同組別中,對進行重排序,將表示為K×D二維圖像。
6.根據權利要求1所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述步驟S4中的殘差網絡表示為:
y=F(x,Wi)+x
其中,x是輸入量,y是輸出量,F()表示一層或多層的卷積神經網絡,Wi表示殘差網絡內所有卷積層的參數。
7.根據權利要求1或6所述的基于重排序超向量和殘差網絡的說話人識別方法,其特征在于,所述步驟S4中,所述外部神經網絡的輸出端為全連接網絡,通過全連接網絡的瓶頸層獲取說話人信息的深度編碼特征。
8.基于重排序超向量和殘差網絡的說話人識別裝置,其特征在于,包括處理器和用于存儲處理器可執行指令的存儲器;所述處理器讀取可執行指令并執行以下步驟:
對語音樣本進行語音信號檢測,提取及優化MFCC特征;
基于TDNN聲學模型處理MFCC特征,從而得到均值中心化超向量;
根據senone狀態的相似性對均值中心化超向量進行重排序;
以重排序后的均值中心化超向量作為外部神經網絡的輸入,對外部神經網絡進行訓練,其中外部神經網絡的輸入端為殘差網絡;從外部神經網絡的輸出端獲取說話人信息的深度編碼特征;
對說話人信息的深度編碼特征進行PLDA建模,從而得到PLDA模型;
計算多個語音樣本的深度編碼特征在PLDA模型上的似然得分,并比較對應的似然得分是否相同,若相同,則判定對應的說話人為同一個人,否則不為同一個人;
其中,所述基于TDNN聲學模型處理MFCC特征,從而得到均值中心化超向量,包括:
基于TDNN聲學模型提取MFCC特征中每一幀在音素層單元上的后驗概率,得到:
其中,MFCC特征為{y1,y2,...,yL},L為幀數,ci是TDNN聲學模型中的第i個senone狀態,μi是對應第i個senone狀態的均值向量,P(ci|yt)是第t幀特征yt在音素層單元上的后驗概率,Ni和Fi分別是MFCC特征在第t幀下的零階和一階的Baum-Welch統計量。
利用Ni對Fi的均值中心化向量進行權重估計,得到Fi的歸一化均值中心化向量
將所有幀的拼接,得到均值中心化超向量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佛山市順德區中山大學研究院;廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經佛山市順德區中山大學研究院;廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810257464.9/1.html,轉載請聲明來源鉆瓜專利網。





