[發(fā)明專利]一種端到端錄音設(shè)備源識別方法、識別系統(tǒng)、計算機設(shè)備在審
| 申請?zhí)枺?/td> | 202111313782.0 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN114067831A | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計)人: | 曾春艷;馮世雄;王志鋒;孔帥;余琰;夏詩言 | 申請(專利權(quán))人: | 湖北工業(yè)大學(xué) |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L25/30;G10L25/51;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 張曉博 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 端到端 錄音 設(shè)備 識別 方法 系統(tǒng) 計算機 | ||
1.一種基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法包括:
按時序分幀提取數(shù)字音頻中的梅爾倒譜系數(shù)作為設(shè)備源特征,再劃分為時序特征片段分別提取高斯均值矩陣,得到時序高斯均值矩陣(Sequential Gaussian Mean Matrix,SGMM)特征;
利用卷積神經(jīng)網(wǎng)絡(luò)對時序高斯均值矩陣特征進行深度表示學(xué)習(xí),提取深度瓶頸特征;通過雙向長短期記憶神經(jīng)網(wǎng)絡(luò)提取深度時序瓶頸特征中的時域特性,進行錄音設(shè)備源的識別分類。
2.如權(quán)利要求1所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法包括以下步驟:
步驟一,提取錄音設(shè)備源信號中的梅爾倒譜系數(shù)MFCC特征,并將每條音頻數(shù)據(jù)保留相同幀數(shù)的MFCC特征;
步驟二,利用MFCC特征訓(xùn)練建立高斯混合通用背景模型即GMM-UBM模型,將MFCC特征分段后由GMM-UBM模型提取時序高斯均值矩陣;
步驟三,利用構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進行深度表示學(xué)習(xí),從時序高斯均值矩陣提取深度瓶頸特征,并保留時序高斯均值矩陣特征的時序結(jié)構(gòu);
步驟四,進行設(shè)備源識別網(wǎng)絡(luò)時序建模,構(gòu)建基于雙向長短期記憶神經(jīng)網(wǎng)絡(luò)的分類模型,利用所述分類模型基于提取的深度瓶頸特征進行錄音設(shè)備源的識別分類。
3.如權(quán)利要求2所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,所述提取錄音設(shè)備源信號中的梅爾倒譜系數(shù)MFCC特征,并將每條音頻數(shù)據(jù)保留相同幀數(shù)的MFCC特征包括:
對錄音設(shè)備源信號分幀加窗進行預(yù)處理;對錄音設(shè)備源信號進行快速傅里葉變換,并利用一組Mel尺度的三角濾波器組將得到的幅值譜信號進行Mel濾波;
計算每個濾波器組輸出的對數(shù)幅度譜,并進行離散余弦變換得到MFCC特征,每條錄音數(shù)據(jù)保留前n幀的MFCC特征。
4.如權(quán)利要求3所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,所述對錄音設(shè)備源信號分幀加窗進行預(yù)處理包括:幀長取256ms,并以幀長的1/2作為幀移,使用漢明窗函數(shù)進行加窗。
5.如權(quán)利要求2所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,步驟二中,所述利用MFCC特征訓(xùn)練建立高斯混合通用背景模型即GMM-UBM模型,將MFCC特征分段后由GMM-UBM模型提取時序高斯均值矩陣包括:
利用多種錄音設(shè)備的錄音數(shù)據(jù)訓(xùn)練一個高斯數(shù)為n的對角協(xié)方差通用背景模型即UBM模型,得到n個高斯混合的權(quán)重系數(shù)矩陣、均值矩陣和協(xié)方差矩陣;利用最大后驗估計算法針對訓(xùn)練數(shù)據(jù)中的每個設(shè)備的特征向量,對通用背景模型自適應(yīng)得到特定設(shè)備源的GMM模型;
將提取到的MFCC特征均切分為t個連續(xù)特征片段,由GMM-UBM模型提取GMM的均值矩陣,將每個GMM的n個均值矩陣依次連接為總長度為n×輸入MFCC維度的均值矩陣,即時序高斯均值矩陣特征。
6.如權(quán)利要求2所述基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法,其特征在于,步驟三中,所述利用構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)進行深度表示學(xué)習(xí),從時序高斯均值矩陣提取深度瓶頸特征,并保留時序高斯均值矩陣特征的時序結(jié)構(gòu)包括:
構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)進行深度表示學(xué)習(xí),利用高斯均值矩陣特征訓(xùn)練網(wǎng)絡(luò)模型并測試;
將訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型進行深度瓶頸特征的提取,并以高斯均值矩陣特征的時序結(jié)構(gòu)形式保存。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北工業(yè)大學(xué),未經(jīng)湖北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111313782.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





