[發明專利]一種基于聲譜圖顯著性檢測的音頻識別方法有效
| 申請號: | 201510054228.3 | 申請日: | 2015-02-02 |
| 公開(公告)號: | CN104616664B | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 陳雁翔;弓彥婷;任洪梅;王猛 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/48 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司34101 | 代理人: | 陸麗莉,何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲譜 顯著 檢測 音頻 識別 方法 | ||
技術領域
本發明屬于音頻識別領域,具體地說是一種基于聲譜圖顯著性檢測的音頻識別方法。
背景技術
隨著互聯網的高速發展,涌現大量的音頻、視頻和圖像信息。但是音頻信息的研究速度遠遠比不上視頻和圖像的研究,而且對大量音頻信息的識別工作,單靠人工標注是一件龐大而又繁瑣的工程,因此,實現對音頻信號的自動識別,是音頻領域的研究重點。
目前存在的音頻信號的自動識別方法主要通過提取特征和選擇分類器兩大步驟進行,其中研究提取音頻信號的聲音特征為傳統常用的音頻識別方法。然而對大量未知復雜的音頻數據,若不先對音頻進行細化分類,針對不同類型的音頻數據采取不同的處理過程,傳統的音頻識別方法存在明顯不足。尤其是原始音頻具有極其復雜的表示方式,缺少語義背景內容和結構化的組織,在間斷、多源和噪聲干擾等復雜的環境下如何選擇能夠準確表示此類音頻的特征信息,并且運用何種識別方法將未知音頻正確分類識別是音頻識別的重要研究問題。
近年來,隨著人類聽覺神經科學認識的逐漸深入,越來越多的研究者將注意力放在基于聲譜圖的時頻模型上。研究結果認為:聲譜圖中的時頻結構反映了信號時域和空域結構,可以形成聲學感知的稀疏基函數。這與大腦聽覺感知系統有效去除冗余,利用較少的神經元表達更多的外界聲音信息的思想一致。德國奧登堡大學的Kleinschmidt提出適合自動音頻識別的新特征:聲譜圖中的局部時頻結構特征。研究者認為該特征與聽覺神經元的時頻感受野特性相似,具有有效表達如共振峰的聲學參數、較少加性噪聲的影響和很好的泛化性。但是,該局部時頻結構是通過研究者在聲譜圖中人工選取的,針對多聲源和加性噪聲存在的聲譜圖中,如何讓計算機自動有效提取分離出主要聲源的局部時頻結構仍待解決。麻省理工學院的Schutte利用boosting分類器通過聲譜圖的局部時頻結構識別音頻。然而boosting分類器太過依賴人為設定和調節閾值,通過該方法對識別復雜環境下未知音頻類型的音頻數據來說并不實用。
發明內容
本發明是為了克服現有技術存在的不足之處,提供一種可靠、自動化、快速且強大的基于聲譜圖顯著性檢測的音頻識別方法,以期能有效表征復雜環境下未知音頻類型的特征信息,同時能夠實現快速自動的音頻識別。
本發明為解決技術問題采用如下技術方案:
本發明一種基于聲譜圖顯著性檢測的音頻識別方法的特點是如下步驟進行:
步驟1、獲取像素為M×N的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲得m×n幅聲譜圖D={d1,d2,…,di,…,dm×n};di表示第i幅聲譜圖;i∈[1,m×n];
對所述m×n幅聲譜圖D分別進行特征提取,獲得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅聲譜圖di的RGBY色度特征;Oi表示第i幅聲譜圖di的方向特征;Ii表示第i幅聲譜圖di的亮度特征;
步驟2、根據所述基本特征集合利用GBVS算法對所述第i幅聲譜圖di進行顯著性提取,獲得第i幅顯著性圖Si;根據所述第i幅顯著性圖Si利用主圖分離方法提取所述第i幅聲譜圖di的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMi)、G基色圖G(SMi)和B基色圖B(SMi)構成的像素為l×l的三維基色圖;從而獲得m×n幅聲譜圖D的主圖集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510054228.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:字線電壓產生電路以及存儲器
- 下一篇:多媒體一體機及其語音控制實現方法





