[發(fā)明專利]一種端到端錄音設(shè)備源識別方法、識別系統(tǒng)、計算機設(shè)備在審
| 申請?zhí)枺?/td> | 202111313782.0 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN114067831A | 公開(公告)日: | 2022-02-18 |
| 發(fā)明(設(shè)計)人: | 曾春艷;馮世雄;王志鋒;孔帥;余琰;夏詩言 | 申請(專利權(quán))人: | 湖北工業(yè)大學(xué) |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L25/30;G10L25/51;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普華知識產(chǎn)權(quán)代理有限公司 11401 | 代理人: | 張曉博 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 端到端 錄音 設(shè)備 識別 方法 系統(tǒng) 計算機 | ||
本發(fā)明屬于數(shù)字音頻被動取證技術(shù)領(lǐng)域,公開了一種端到端錄音設(shè)備源識別方法、識別系統(tǒng)、計算機設(shè)備,按時序分幀提取數(shù)字音頻中的梅爾倒譜系數(shù)作為設(shè)備源特征,再劃分為時序特征片段分別提取高斯均值矩陣,得到時序高斯均值矩陣特征;利用卷積神經(jīng)網(wǎng)絡(luò)對時序高斯均值矩陣特征進行深度表示學(xué)習(xí),提取深度瓶頸特征;通過雙向長短期記憶神經(jīng)網(wǎng)絡(luò)提取深度時序瓶頸特征中的時域特性,進行錄音設(shè)備源的識別分類。本發(fā)明能夠有效的檢測區(qū)分大量的錄音設(shè)備型號,并充分考慮到數(shù)字音頻自身的特殊性,提高了算法的準(zhǔn)確度與效率;本發(fā)明在進行錄音設(shè)備源任務(wù)時,所需語音數(shù)據(jù)量小,每條音頻文件只需要數(shù)秒的長度,不需要特意使用非語音段進行識別。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)字音頻被動取證技術(shù)領(lǐng)域,尤其涉及一種基于時序超矢量表示學(xué)習(xí)的端到端錄音設(shè)備源識別方法。
背景技術(shù)
目前,近十年來,隨著電子信息產(chǎn)業(yè)的快速發(fā)展與進步,智能手機和平板電腦等移動設(shè)備得到了廣泛普及,音頻的錄制與存儲、傳輸?shù)谋憬菪垣@得極大的提升,錄音操作隨時隨地都可以在移動設(shè)備上進行,不再受到需要使用專業(yè)錄音設(shè)備的限制。
在使用智能手機等移動設(shè)備進行錄音時,所錄制的音頻以數(shù)字音頻數(shù)據(jù)文件的形式保存。通過錄音獲得的數(shù)字音頻數(shù)據(jù)文件中,攜帶著如語音內(nèi)容、語言種類、說話人信息、說話人情緒、說話人性別、環(huán)境噪聲等很多信息,其中也包含著與錄音設(shè)備相關(guān)的信息。在關(guān)于語音內(nèi)容或說話人識別類別的任務(wù)中,使用到的特征信息是來自于說話人聲音的生物特征,而在錄音設(shè)備源識別任務(wù)中,使用到的特征信息來源于數(shù)字信號傳輸過程中產(chǎn)生的差異性特征。
在使用移動設(shè)備錄制音頻時,由于不同的錄音設(shè)備內(nèi)部電路結(jié)構(gòu)與元器件的差異,音頻錄制過程中產(chǎn)生的語音激勵信號在設(shè)備電路中的傳遞會產(chǎn)生差異性,這種差異性造成了不同錄音設(shè)備在采集語音過程中會在音頻文件中留下具有區(qū)分性的特征痕跡。
許多研究人員在錄音設(shè)備源識別領(lǐng)域做了一些包括錄音設(shè)備聚類、識別等相關(guān)工作。在深度學(xué)習(xí)技術(shù)應(yīng)用到錄音設(shè)備源識別領(lǐng)域前,通常采用提取音頻中的頻譜特征如MFCC、LFCC和IMFCC等,然后采用特定的機器學(xué)習(xí)方法分析特征進行分類。
近年來,由于深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究人員將深度學(xué)習(xí)技術(shù)應(yīng)用于錄音設(shè)備源識別研究領(lǐng)域,錄音設(shè)備源識別技術(shù)獲得了快速的發(fā)展。深度神經(jīng)網(wǎng)絡(luò)具有強大的表示學(xué)習(xí)能力,可以從原始數(shù)據(jù)中自動提取高度抽象和復(fù)雜的特征,可以自動尋找出與分類任務(wù)最相關(guān)的特征信息,高效提取出最具區(qū)分度的潛在內(nèi)部特征。CNN(卷積神經(jīng)網(wǎng)絡(luò))和DNN(深度神經(jīng)網(wǎng)絡(luò))已被證明是是錄音設(shè)備源識別、提取相關(guān)特征域空間相關(guān)性的有效方法。隨著深度學(xué)習(xí)技術(shù)的發(fā)展進步,神經(jīng)網(wǎng)絡(luò)的發(fā)展朝著網(wǎng)絡(luò)層數(shù)越來越高、網(wǎng)絡(luò)結(jié)構(gòu)越來越復(fù)雜的趨勢發(fā)展,因為深層復(fù)雜網(wǎng)絡(luò)比淺層單一網(wǎng)絡(luò)有更強的擬合能力,能夠提取更多特征,能夠解決更加復(fù)雜的問題,組合網(wǎng)絡(luò)對比單一網(wǎng)絡(luò)展現(xiàn)出了明顯的優(yōu)勢。
同時,從特征的角度來看,以往的錄音設(shè)備源識別方法中,使用的多是MFCC、LFCC和IMFCC等音頻中的頻譜類短時譜特征,這類特征是從錄音數(shù)據(jù)中直接提取到的聲學(xué)特征,包含著包括語音內(nèi)容、環(huán)境噪聲、說話人信息等與錄音設(shè)備源識別無關(guān)的干擾信息,有研究人員使用GMM(高斯混合模型)方法進一步提取出了更具表達(dá)性的高斯超矢量(GaussianSuper Vector,GSV)特征,但是這些特征只使用到了從數(shù)據(jù)的頻域特性中獲取到的空間信息,而忽略了連續(xù)音頻數(shù)據(jù)中的時域特性,舍棄了錄音設(shè)備源信號中的時序信息。
近來的錄音設(shè)備源識別方法的更新與深度學(xué)習(xí)技術(shù)的發(fā)展緊密相連,有研究人員使用新的深度學(xué)習(xí)網(wǎng)絡(luò)模型與思想對錄音設(shè)備源識別技術(shù)做出了改進,很多優(yōu)秀的深度網(wǎng)絡(luò)模型被應(yīng)用到了錄音設(shè)備源識別領(lǐng)域。出現(xiàn)了使用循環(huán)神經(jīng)網(wǎng)絡(luò)類的網(wǎng)絡(luò)模型應(yīng)用到錄音設(shè)備源識別任務(wù)中,但在特征方面依舊使用的MFCC等短時頻譜特征,對設(shè)備源特征信息的表征能力非常有限。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北工業(yè)大學(xué),未經(jīng)湖北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111313782.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





