[發明專利]全連接多尺度的殘差網絡及其進行聲紋識別的方法有效
| 申請號: | 202010731632.0 | 申請日: | 2020-07-27 |
| 公開(公告)號: | CN111833886B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 王文超;方策;張鵬遠;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L25/30;G06N3/04 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 連接 尺度 網絡 及其 進行 聲紋 識別 方法 | ||
本發明提供了一種全連接多尺度的殘差網絡及其進行聲紋識別的方法。該殘差網絡包括輸入層,卷積層,N個依次連接的殘差模塊,以及全連接層。其中,在每個殘差模塊中,可以將輸入的特征圖分成多個分組,長度和寬度均為1的第一卷積核的輸出,連接到后面經過多個第二卷積核構成的第二卷積核組,作為第二卷積核組的輸入,最后將經過第二卷積核組的輸出的特征圖拼接在一起,由長度和寬度均為1的第三卷積核對其進行卷積處理,實現多尺度特征信息的融合,全連接層可以根據融合后的特征更好預測并輸出用于指示說話人的分類信息。如此,可以在不增加網絡深度的情況下,更好的提取多尺度的特征,從而實現更為準確的進行聲紋識別。
技術領域
本發明涉及人工智能領域,更具體的說,涉及一種全連接多尺度的殘差網絡及其進行聲紋識別的方法。
背景技術
在得益于深度學習的幫助,聲紋識別技術得到了快速的發展。由于深度神經網絡(Deep Neural Network,DNN)具有較強的抽象表示能力,因而在各種模式識別任務中都有顯著的表現。可以把DNN的最后一個隱藏層的輸出稱為d-vector。類似d-vector的思想,接收時延神經網絡(Time Delay Neural Network,TDNN)最后一個隱藏層的輸出并且計算其統計量,稱為x-vector,d-vector和x-vector可以作為輸入語音幀的說話人身份的表示。
另外,由于卷積神經網絡(Convolutional Neural Network,CNN)具有多尺度描述圖像或者語音特征的能力,在一定程度上優于DNN和TDNN,CNN在聲紋識別中的應用也逐漸得到推廣。
為了克服因CNN的網絡層的數量過多而造成的梯度消失的問題,可以通過由多個殘差模塊堆疊形成的殘差網絡(Residual Network,ResNet)實現聲紋識別。ResNet的每個殘差模塊中,輸入層和輸出層之間直接連接。與傳統的單向連接的神經網絡相比,殘差模塊的輸入層與輸出層之間的直接連接,避免了深層網絡梯度消失的問題。
希望有一種新的技術方案,以期實現更好的提取聲紋特征,從而實現更為準確的聲紋識別。
發明內容
本發明的目的是為了解決現有技術中存在的技術問題,可以在不增加網絡深度的情況下,更好的提取多尺度的特征,從而實現更為準確的進行聲紋識別。
第一方面,本發明提供了一種用于聲紋識別的全連接多尺度的殘差網絡,包括輸入層,卷積層,N個依次連接的殘差模塊,以及全連接層;其中,
所述輸入層,用于接收待識別的語音信息對應的特征向量;
所述卷積層,用于對特征向量進行卷積處理以得到第一特征圖;
對于N個殘差模塊中的第i個殘差模塊,用于:
接收當前特征圖,其中,當前特征圖為第一特征圖,或者為第i-1個殘差模塊輸出的第六特征圖,N為大于1的整數,i大于0且不大于N;以及,
根據長度和寬度均為1的第一卷積核,對當前特征圖進行卷積處理以得到第二特征圖;
將第二特征圖劃分為至少兩個第三特征圖,其中所述至少兩個第三特征圖與存在順序關系的至少兩個第二卷積核一一對應;
針對至少兩個第二卷積核中任意的第j個第二卷積核,確定出第j個第二卷積核對應的至少一個第四特征圖,并根據第j個卷積核對所述至少一個第四特征圖進行卷積處理以得到第五特征圖;其中,第j個第二卷積核對應的至少一個第四特征圖,包括第j個卷積核對應的第三特征圖,以及包括位于第j個第二卷積核之前的每個第二卷積核各自對應的第五特征圖;根據長度和寬度均為1的第三卷積核,對所述至少兩個第二卷積核各自對應的第五特征圖進行卷積處理,得到并輸出第六特征圖;
所述全連接層,用于根據第N個殘差模塊輸出的第六特征圖,預測并輸出所述聲音信息對應的分類信息,所述分類信息用于指示發出所述聲音信息的說話人。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010731632.0/2.html,轉載請聲明來源鉆瓜專利網。





