[發(fā)明專利]一種基于網(wǎng)絡融合的聲紋識別方法及裝置有效
| 申請?zhí)枺?/td> | 201810456054.7 | 申請日: | 2018-05-14 |
| 公開(公告)號: | CN110299142B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設計)人: | 蔡曉東;李波 | 申請(專利權(quán))人: | 桂林遠望智能通信科技有限公司 |
| 主分類號: | G10L17/18 | 分類號: | G10L17/18;G10L17/06 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務所(特殊普通合伙) 11465 | 代理人: | 姜海榮 |
| 地址: | 541001 廣西壯族自治區(qū)桂林市七星*** | 國省代碼: | 廣西;45 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 網(wǎng)絡 融合 聲紋 識別 方法 裝置 | ||
1.一種基于網(wǎng)絡融合的聲紋識別方法,其特征在于,包括:
將待識別聲紋音頻的語音樣本轉(zhuǎn)換為第一語譜圖,將與所述待識別聲紋音頻進行比對的聲紋數(shù)據(jù)庫中的語音樣本轉(zhuǎn)換為第二語譜圖;
將所述第一語譜圖和第二語譜圖輸入時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型,分別提取聲紋特征;
在所述時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型中引入CSR模型;
將待識別聲紋音頻的聲紋特征與所述聲紋數(shù)據(jù)庫中的聲紋特征進行比對,根據(jù)引入CSR模型提供的獎懲函數(shù),確定識別結(jié)果;
所述時序相關(guān)卷積神經(jīng)網(wǎng)絡為:在卷積神經(jīng)網(wǎng)絡中的池化層中融入時序相關(guān)的神經(jīng)網(wǎng)絡;
所述時序相關(guān)卷積神經(jīng)網(wǎng)絡的架構(gòu),包括:
輸入語譜圖,依次經(jīng)過兩個卷積層和兩個池化層,在經(jīng)過第三個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡3;在經(jīng)過第四個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡2;在經(jīng)過第五個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡1;將時序相關(guān)神經(jīng)網(wǎng)絡1經(jīng)過第六和第七個卷積層時,進行上采樣得到score2;經(jīng)過時序相關(guān)神經(jīng)網(wǎng)絡2后得到一個score_pool4;將score2與score_pool4進行累加并進行上采樣得到score4;將經(jīng)過時序相關(guān)神經(jīng)網(wǎng)絡3得到的score_pool3與score4進行累加并上采樣得到輸出。
2.如權(quán)利要求1所述的聲紋識別方法,其特征在于,所述時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型的訓練方法,包括:
獲取多個語音訓練樣本,將每個所述語音訓練樣本的音頻進行變換得到第三語譜圖;
將所述第三語譜圖并行投入時序相關(guān)卷積神經(jīng)網(wǎng)絡中進行訓練,生成時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型。
3.如權(quán)利要求1所述的聲紋識別方法,其特征在于,根據(jù)引入CSR模型提供的獎懲函數(shù),確定識別結(jié)果,包括:
在CSR模型中設置獎懲函數(shù),輸入所述分別提取特征所對應的特征向量,計算lost方程的值;當所述值大于等于預設的閾值時,則CSR返回一個懲罰值;當所述值小于等于所述閾值時,則返回一個獎勵值;根據(jù)所述懲罰值和所述獎勵值,確定識別結(jié)果。
4.如權(quán)利要求3所述的聲紋識別方法,其特征在于,CSR模型提供的獎懲函數(shù)的表達式為:
其中,lostn是第n個待檢測語音在通過所述時序相關(guān)卷積神經(jīng)網(wǎng)絡模型訓練后得到的歸一化特征向量和目標特征向量的誤差函數(shù),b是根據(jù)所述CSR模型識別率給定的誤差閾值;
CSR模型中,確定識別結(jié)果的識別函數(shù)的數(shù)學表達式如下:
其中,是判斷第n時刻的狀態(tài),f(lostn)是第n時刻的獎懲函數(shù)。
5.一種基于網(wǎng)絡融合的聲紋識別裝置,其特征在于,包括:
轉(zhuǎn)換模塊,用于將待識別聲紋音頻的語音樣本轉(zhuǎn)換為第一語譜圖,將與所述待識別聲紋音頻進行比對的聲紋數(shù)據(jù)庫中的語音樣本轉(zhuǎn)換為第二語譜圖;
提取模塊,用于將所述第一語譜圖和第二語譜圖輸入時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型,分別提取聲紋特征;
引入模塊,用于在所述時序相關(guān)卷積神經(jīng)網(wǎng)絡聲紋識別模型中引入CSR模型;
確定模塊,用于將待識別聲紋音頻的聲紋特征與所述聲紋數(shù)據(jù)庫中的聲紋特征進行比對,根據(jù)引入CSR模型提供的獎懲函數(shù),確定識別結(jié)果;
所述時序相關(guān)卷積神經(jīng)網(wǎng)絡為:在卷積神經(jīng)網(wǎng)絡中的池化層中融入時序相關(guān)的神經(jīng)網(wǎng)絡;
所述時序相關(guān)卷積神經(jīng)網(wǎng)絡的架構(gòu),包括:
輸入語譜圖,依次經(jīng)過兩個卷積層和兩個池化層,在經(jīng)過第三個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡3;在經(jīng)過第四個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡2;在經(jīng)過第五個池化層時,嵌入時序相關(guān)神經(jīng)網(wǎng)絡1;將時序相關(guān)神經(jīng)網(wǎng)絡1經(jīng)過第六和第七個卷積層時,進行上采樣得到score2;經(jīng)過時序相關(guān)神經(jīng)網(wǎng)絡2后得到一個score_pool4;將score2與score_pool4進行累加并進行上采樣得到score4;將經(jīng)過時序相關(guān)神經(jīng)網(wǎng)絡3得到的score_pool3與score4進行累加并上采樣得到輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于桂林遠望智能通信科技有限公司,未經(jīng)桂林遠望智能通信科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810456054.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





