[發明專利]一種基于聲譜圖顯著性檢測的音頻識別方法有效
| 申請號: | 201510054228.3 | 申請日: | 2015-02-02 |
| 公開(公告)號: | CN104616664B | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 陳雁翔;弓彥婷;任洪梅;王猛 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/48 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司34101 | 代理人: | 陸麗莉,何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聲譜 顯著 檢測 音頻 識別 方法 | ||
1.一種基于聲譜圖顯著性檢測的音頻識別方法,其特征是如下步驟進行:
步驟1、獲取像素為M×N的n種不同聲源的聲譜圖,每種聲譜圖獲取m幅,從而獲得m×n幅聲譜圖D={d1,d2,…,di,…,dm×n};di表示第i幅聲譜圖;i∈[1,m×n];
對所述m×n幅聲譜圖D分別進行特征提取,獲得基本特征集合;所述基本特征集合包括:RGBY色度特征集合C={C1,C2,…,Ci,…,Cm×n}、方向特征集合O={O1,O2,…,Oi,…,Om×n}和亮度特征集合I={I1,I2,…,Ii,…,Im×n};Ci表示第i幅聲譜圖di的RGBY色度特征;Oi表示第i幅聲譜圖di的方向特征;Ii表示第i幅聲譜圖di的亮度特征;
步驟2、根據所述基本特征集合利用GBVS算法對所述第i幅聲譜圖di進行顯著性提取,獲得第i幅顯著性圖Si;根據所述第i幅顯著性圖Si利用主圖分離方法提取所述第i幅聲譜圖di的主圖SMi,所述第i幅主圖SMi是由R基色圖R(SMi)、G基色圖G(SMi)和B基色圖B(SMi)構成的像素為l×l的三維基色圖;從而獲得m×n幅聲譜圖D的主圖集合SM={SM1,SM2,…,SMi,…,SMm×n};l<M,l<N;
步驟3、利用式(1)提取所述第i幅主圖SMi的層次對比圖SMRi,從而獲得m×n幅聲譜圖D的層次對比圖集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}:
步驟4、利用式(2)獲得所述第i幅層次對比圖SMRi的PCA特征圖SMRPi,從而獲得m×n幅聲譜圖D的PCA特征圖集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}:
SMRPi=(dimj(Ai))TSMRi (2)
式(2)中,Ai表示所述第i幅層次對比圖SMRi的協方差矩陣,dimj(Ai)表示所述協方差矩陣Ai的前j個特征向量所組成的矩陣;并有:
式(3)中,表示第i幅層次對比圖SMRi中第α個像素值;α∈[1,l];
以所述第i幅層次對比圖SMRi和第i幅PCA特征圖SMRPi作為特征描述集表征所述第i幅聲譜圖di的聲源,從而獲得所述m×n幅聲譜圖D中n類聲源的所有特征描述集表征,所述n類聲源中的每類聲源均包含m個特征描述集;
步驟5、建立n種不同聲源的GCNN聲源模型;
步驟5.1、在深度卷積神經網絡CNN中增加內部輸入層,從而形成改進的深度卷積神經網絡GCNN:
所述深度卷積神經網絡CNN包含外部輸入層、p個卷積層{C1,C2,…,Cp}、p個降采樣層{S1,S2,…,Sp}以及全連接softmax分類層;所述p個卷積層{C1,C2,…,Cp}中的每個卷積層與p個降采樣層{S1,S2,…,Sp}中的每個降采樣層為互相交錯設置,所述外部輸入層連接第1個卷積層C1;第p個降采樣層Sp連接所述全連接softmax分類層;
在所述第1個卷積層C1與第1個降采樣層S1之間設置所述內部輸入層,從而構成所述改進的深度卷積神經網絡GCNN;
步驟5.2、以所述層次對比圖集合SMR={SMR1,SMR2,…,SMRi,…,SMRm×n}作為所述外部輸入層的輸入;以所述PCA特征圖集合SMRP={SMRP1,SMRP2,…,SMRPi,…,SMRPm×n}作為所述內部輸入層的輸入;通過所述改進的深度卷積神經網絡GCNN進行訓練和建模,從而獲得n種不同聲源的GCNN聲源模型;
步驟6、利用所述n種不同聲源的GCNN聲源模型識別待測試聲譜圖d'的聲源:
步驟6.1、對所述待測試聲譜圖d'按照步驟2-步驟4依次進行處理,獲得所述待測試聲譜圖d'的層次對比圖SMRd'和PCA特征圖SMRPd';
步驟6.2、以所述待測試聲譜圖d'的層次對比圖SMRd'作為所述外部輸入層的輸入圖像;以所述待測試聲譜圖d'的PCA特征圖SMRPd'作為所述內部輸入層的輸入圖像;從而利用所述n種不同聲源的GCNN聲源模型識別所述待測試聲譜圖d'所屬的聲源。
2.根據權利要求1所述的基于聲譜圖顯著性檢測的音頻識別方法,其特征是,所述步驟2中的主圖分離方法是按如下步驟進行:
步驟2.1、假設所述第i幅顯著性圖Si中包含Q個注意焦點,將所述Q個注意焦點進行降序排序獲得注意焦點集合FOA={FOA1,FOA2,…,FOAq,…,FOAQ};FOAq表示第q個注意焦點;獲取所述注意焦點集合FOA中每個注意焦點在所述第i幅顯著性圖Si中各自的位置L={L1,L2,…,Lq,…,LQ};Lq表示所述第q個注意焦點FOAq在所述第i幅顯著性圖Si中的位置;1≤q≤Q;
步驟2.2、初始化q=1;
步驟2.3、利用所述第q個注意焦點FOAq在顯著性圖中的位置Lq,獲得所述第q個注意焦點FOAq在所述第i幅聲譜圖di中所對應的位置Lq';
步驟2.4、提取所述對應的位置Lq'的色度特征,所述色度特征包括:紅色特征Rq、綠色特征Gq、藍色特征Bq和黃色特征Yq;
步驟2.5、判斷所述紅色特征Rq是否滿足在所述色度特征中為最大值,且所述色特征Gq、藍色特征Bq和黃色特征Yq均為0;若滿足,則執行步驟2.6,否則,判斷q=Q是否成立;若成立,則表示所述第i幅顯著性圖Si中沒有有效聲源;否則,將q+1的值賦給q,并返回步驟2.3執行;
步驟2.6、從與所述第i幅顯著性圖Si所對應的第i幅聲譜圖di中分離出以l×l為邊長,并以對應的位置Lq'為中心的正方框,判斷所述正方框是否超出所述第i幅聲譜圖di的邊界,若超出,則以所述超出的邊界作為所述正方框的邊,形成新的l×l的矩形框,以所述新的l×l的矩形框作為所述第i幅聲譜圖di的主圖SMi;否則,以所述正方框作為所述第i幅聲譜圖di的主圖SMi。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510054228.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:字線電壓產生電路以及存儲器
- 下一篇:多媒體一體機及其語音控制實現方法





