[發明專利]一種基于BMFCC-GBFB-DNN的機電設備視聽信息融合方法有效
| 申請號: | 202010974747.2 | 申請日: | 2020-09-16 |
| 公開(公告)號: | CN112101462B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 王松;胡燕祝;徐小鳳 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06V10/80;G06V10/82;G06N3/04;G10L17/18;G10L17/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 bmfcc gbfb dnn 機電設備 視聽 信息 融合 方法 | ||
1.一種基于BMFCC-GBFB-DNN的機電設備視聽信息融合方法,其特征在于:(1)提取MFCC特征,確定聽覺信息的F比;(2)確定MFCC參數加權后的表達式;(3)MFCC參數進行主成分分析;(4)提取聽覺信息的GBFB特征;(5)將卷積后結果分解為子塊矩陣;(6)圖像的可聽化處理;(7)搭建DNN架構;具體包括以下七個步驟:
步驟一:提取MFCC特征,確定分布式光纖信號聽覺信息的F比F(k):
式中,Fbetween(k)為第k維分量均值的方差,Fwithin(k)為第k維分量的方差之和;
步驟二:確定MFCC參數加權后的表達式C(n):
首先,根據F比圖特點,假設加權系數表達式為:
ci=a+bsin(π·i/p)
式中,p為濾波器階數,i=0,1,L,p-1,a為加權系數的靜態分量,b為加權系數的線性分量;根據經驗細化a,b值,確定MFCC參數加權后的表達式C(n):
式中,M代表濾波器階數,m為對應的分布式光纖聽覺信息的幀數,s(m)為對應于m幀的分布式光纖聽覺信息;
步驟三:MFCC參數進行主成分分析:
對加權處理過的特征分量求差分,△WMFCC為特征分量一階差分,△2WMFCC為特征分量二階差分;將三者組成一組特定維數的MFCC參數;
對得到的參數進行PCA主成分分析,確定相關矩陣T:
式中,N是MFCC參數的維數,ci是加權后的MFCC參數,C是M×N的矩陣,是矩陣T的特征值及相應的特征向量;在一定的閾值要求下,取大于閾值特征值所對應的特征向量,構成變換矩陣W;利用將C映射到特征空間X中,其中,X=[x1,x2,L,xp],為M×p的矩陣,選取新向量X中的p維特征向量;
步驟四:提取聽覺信息的GBFB特征:
確定分布式光纖信號聽覺信息聲譜與Gabor濾波器進行卷積處理后的結果Gu,v(n,k);利用mel濾波器將得到的結果進行濾波處理,得到
式中,n表示聲譜的坐標點,u和v為Gabor濾波器的尺度與方向,MELl(n)表示mel濾波器組,Lt和Ht為mel濾波器最低和最高頻率;
步驟五:將分解為p×q個j×k大小的子塊矩陣:
對上式中的每個子矩陣取最大值,得到Uu,v:
Uu,v=[max((Gjk)ij)]p×q
將Uu,v向量化得到UQ,利用PCA將UQ映射到低維空間得到P(UQ):
式中,j為小塊矩陣的行數,q為子矩陣一共的列數,μ為UQ的均值,維數為M×1,M=p×q,為低維的映射矩陣,維數為M×d,d為主成分個數,因此,最終得到d×1維的GBFB特征;
步驟六:圖像的可聽化處理:
選擇圖像的像素值和像素值所在的位置作為圖像映射的特征,選擇聲音的振幅和頻率作為聲音的維度,則圖像與聲音的映射關系為:
式中,sij為圖像第i行第j列的聽覺信息模式,n為圖像總像素列數,gi,j為圖像的像素值,fj為第j列的像素點的頻率,t決定了聽覺信息的持續時間,其中,
步驟七:搭建DNN架構:
在訓練過程中,損失函數使用均方誤差MSE的值:
式中,為參數估計值,yi為參數真值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010974747.2/1.html,轉載請聲明來源鉆瓜專利網。





