[發明專利]語音來源設備的識別方法和系統有效
| 申請號: | 202010148882.1 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111508524B | 公開(公告)日: | 2023-02-21 |
| 發明(設計)人: | 蘇兆品;吳張倩;張國富;岳峰;武欽芳;沈朝勇;肖銳 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/03;G10L25/30 |
| 代理公司: | 北京久誠知識產權代理事務所(特殊普通合伙) 11542 | 代理人: | 余罡 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 來源 設備 識別 方法 系統 | ||
1.一種語音來源設備的識別方法,其特征在于,所述方法由計算機執行,包括:
獲取包含自然噪聲的語音數據庫;
提取所述語音數據庫中的語音樣本的LMFB特征;
基于改進的TCN網絡和所述語音樣本的LMFB特征獲取LMFB-TCN特征;
基于LDA技術對所述LMFB-TCN特征進行優化,獲取深度語音特征LMFB-TCN-LDA;
基于所述深度語音特征LMFB-TCN-LDA對SVM分類器進行訓練和測試,得到語音來源設備識別模型,所述語音來源設備識別模型用于識別語音來源設備的品牌和型號;
其中,基于改進的TCN網絡和所述語音樣本的LMFB特征獲取LMFB-TCN特征,包括:
S301、把LMFB特征作為TCN網絡的輸入,對于T幀的LMFB特征,xt是從語音第t幀中提取的特征,xt∈RD,其中D為每一幀特征的維數,輸入X是所有幀特征的串聯,即X∈RT×D,輸入特征經過一維卷積過濾,計算公式表達如下:
Y1=σ1(W1*X0) (1)
式(1)中:
X0是網絡最初的輸入特征;
W1是第一層網絡需要學習的參數;
σ1是非線性激活函數Tanh;
S302、步驟S301的輸出經過TCN網絡中的殘差模塊,殘差模塊深層網絡被分解成若干個殘差學習單元Res_unit,每一個Res_unit中的卷積核個數是128,在殘差模塊中,全部采用擴張卷積,其中參數dilation rate(d)在連續Res_unit中以2的指數形式增加,即d=2n,n=0,1,2,3,4,在TCN網絡中,每個Res_unit的輸出通過添加到下一個Res_unit的輸入而合并,令Yl代表第l層Res_unit的輸出,則:
Yl=Yl-1+F(Wl,Yl-1) (2)
式(2)中:
Wl是第l層Res_unit需要學習的參數,F是在Res_unit中經歷的非線性變換;
其中,在每個殘差學習單元Res_unit中,將輸入信號進行卷積之后分別利用Sigmoid激活函數和Tanh激活函數進行線性變換,并將結果相乘,再次經過一維卷積和Tanh激活函數之后輸出,計算公式表達如下:
式(3)中:
σ1是非線性激活函數Tanh;
σ2是非線性激活函數Sigmoid;
和分別代表在第l層Res_unit中第一層conv和第二層conv的參數,
S303、在經過N個Res_unit的學習后,累加不同輸出,經過殘差模塊之后并經過Relu函數非線性變換后得YN,計算公式表達如下:
式(4)中:
σ3是非線性激活函數Relu;
第一個Res_unit的輸出是Y2,TCN中對所有后續Res_unit進行累加;
在殘差模塊之后又添加兩層卷積層,具體計算見公式(5)和(6):
YN+1=σ3(WN+1*YN) (5)
YN+2=WN+2*YN+1 (6)
式(5)(6)中:
WN+1是第N+1層Res_unit需要學習的參數;
WN+2是第N+2層Res_unit需要學習的參數;
S304、步驟S303的輸出YN+2經過全局池化后再經過TCN網絡中的softmax層,計算表述式如下:
式(7)中:
YN+3=GlobalMaxPooling1d(YN+2) (8)
經過改進的TCN網絡的學習,以及不同網絡層對數據的處理,最終取YN+2為的LMFB-TCN特征,其中YN+2∈R128×147,為了將高維冗余特征映射到低維有效特征同時去除冗余信息,將LMFB-TCN特征重塑成一維YN+2∈R6016。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010148882.1/1.html,轉載請聲明來源鉆瓜專利網。





