[發(fā)明專利]基于音頻頻譜圖的異常聲音提取識別方法及裝置在審
| 申請?zhí)枺?/td> | 202210245234.7 | 申請日: | 2022-03-14 |
| 公開(公告)號: | CN114694640A | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 謝小良;張樊;姚欣平;張媛媛;周晴情;晉友迪;畢勝男;喬玲;賀婷婷;宋子睿;黃楚然 | 申請(專利權(quán))人: | 湖南工商大學(xué) |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/16;G10L25/03;G10L25/51;G06K9/62;G06N20/10 |
| 代理公司: | 成都弘毅天承知識產(chǎn)權(quán)代理有限公司 51230 | 代理人: | 陳仕超 |
| 地址: | 410205 湖南省長沙市*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 音頻 頻譜 異常 聲音 提取 識別 方法 裝置 | ||
本發(fā)明公開了基于音頻頻譜圖的異常聲音提取識別方法,涉及異常聲音提取識別技術(shù)領(lǐng)域,用于解決現(xiàn)有技術(shù)中音頻信息提取識別方法在進(jìn)行匹配提取識別語音時精確度不高,所需訓(xùn)練樣本很大的問題,本發(fā)明包括對音頻數(shù)據(jù)進(jìn)行預(yù)處理;對訓(xùn)練樣本進(jìn)行時頻轉(zhuǎn)換,對訓(xùn)練樣本的音頻信號進(jìn)行時頻轉(zhuǎn)換,形成頻譜動畫圖;提取頻譜動畫圖的梯度特征;獲得新特征矩陣;構(gòu)建模型,通過機(jī)器學(xué)習(xí)算法構(gòu)建SVM模型;獲得模型,將新特征矩陣作為輸入,音頻數(shù)據(jù)的標(biāo)記作為預(yù)期輸出,使用SVM模型進(jìn)行訓(xùn)練,得到異常聲音識別模型。本發(fā)明中將圖像識別技術(shù)與音頻識別技術(shù)結(jié)合,所以可以提高對音頻信息提取識別的精確度,并減小相應(yīng)的訓(xùn)練樣本。
技術(shù)領(lǐng)域
本發(fā)明涉及異常聲音提取識別技術(shù)領(lǐng)域,更具體的是涉及基于音頻頻譜圖的異常聲音提取識別方法及裝置。
背景技術(shù)
隨著信息產(chǎn)業(yè)與計算機(jī)技術(shù)的快速發(fā)展,圖像、視頻、音頻等多媒體數(shù)據(jù)的數(shù)據(jù)量高速增長,并已逐漸成為信息處理領(lǐng)域中主要的信息媒體形式,其中音頻信息占有很重要的地位,這時人們面臨的不是缺乏多媒體數(shù)據(jù),而是如何對浩如煙海的多媒體大數(shù)據(jù)進(jìn)行有效的處理、深入分析和充分利用,音頻信息的大數(shù)據(jù)化,一方面為人們的需求提供了條件,但是另一方面也使得人們對于這些音頻信息的管理和檢索增加了難度。
為了讓音頻信息更好的為人們所利用,需要相應(yīng)音頻信息的提取識別方法,相應(yīng)技術(shù)中頻信息的提取識別方法主要有三類:基于模版匹配的,基于概率統(tǒng)計模型的以及基于判別模型的,動態(tài)時間規(guī)整(DTW)算法屬于模版匹配模型,隱馬爾可夫模型(HiddenMarkov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)是基于概率統(tǒng)計的模型,基于判決模型的算法有K均值法、模糊C均值法、支持向量機(jī)(Support Vector Machine,SVM)、神經(jīng)網(wǎng)絡(luò)等,上述音頻信息的提取識別方法可以對音頻信息進(jìn)行提取。
但是,相應(yīng)技術(shù)中的音頻信息提取識別方法在進(jìn)行匹配提取識別語音時精確度不高,而且所需訓(xùn)練樣本也很大。
發(fā)明內(nèi)容
本發(fā)明的目的在于:為了解決現(xiàn)有技術(shù)中音頻信息提取識別方法在進(jìn)行匹配提取識別語音時精確度不高,所需訓(xùn)練樣本很大的問題,本發(fā)明提供基于音頻頻譜圖的異常聲音提取識別方法及裝置,以能提高對音頻信息提取識別的精確度,并減小訓(xùn)練樣本。
本發(fā)明為了實(shí)現(xiàn)上述目的具體采用以下技術(shù)方案:
基于音頻頻譜圖的異常聲音提取識別方法,包括如下步驟:
對音頻數(shù)據(jù)進(jìn)行預(yù)處理,對采用的音頻數(shù)據(jù)進(jìn)行預(yù)處理,并對音頻數(shù)據(jù)進(jìn)行分類和標(biāo)記,將預(yù)處理后的數(shù)據(jù)分為訓(xùn)練樣本和測試樣本;
對訓(xùn)練樣本進(jìn)行時頻轉(zhuǎn)換,對訓(xùn)練樣本的音頻信號進(jìn)行時頻轉(zhuǎn)換,形成頻譜動畫圖;
提取頻譜動畫圖的梯度特征,對頻譜動畫圖進(jìn)行強(qiáng)化降噪處理,再進(jìn)行圖像增強(qiáng)和二值化,然后利用短時傅里葉變換進(jìn)行時頻分析,并計算圖像水平方向和垂直方向的梯度,形成頻譜動畫圖的特征矩陣,最后分析頻譜動畫圖并提取圖像梯度特征;
獲得新特征矩陣,對提取出的圖像梯度特征進(jìn)行降維,得到新特征矩陣;
構(gòu)建模型,通過機(jī)器學(xué)習(xí)算法構(gòu)建SVM模型;
獲得模型,將新特征矩陣作為輸入,音頻數(shù)據(jù)的標(biāo)記作為預(yù)期輸出,使用SVM模型進(jìn)行訓(xùn)練,得到異常聲音識別模型。
進(jìn)一步的,所述并計算圖像水平方向和垂直方向的梯度包括:
分別使用f1=(一1,0,1)和f2=(-1,0,1)T作為卷積核,與提取出的骨皮質(zhì)圖像做卷積得到x方向的梯度gx和y方向的梯度gy;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南工商大學(xué),未經(jīng)湖南工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210245234.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





