[發明專利]一種基于多模態融合深度學習的物體材質分類方法有效
| 申請號: | 201710599106.1 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107463952B | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 劉華平;方靜;劉曉楠;孫富春 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 融合 深度 學習 物體 材質 分類 方法 | ||
1.一種基于多模態融合深度學習的物體材質分類方法,其特征在于該方法包括以下步驟:
(1)設訓練樣本個數為N1,訓練樣本材質種類為M1個,記每類材質訓練樣本的標簽為其中1≤M1≤N1,分別采集所有N1個訓練樣本的視覺圖像I1、觸覺加速度A1和觸覺聲音S1,建立一個包括I1、A1和S1的數據集D1,I1的圖像大小為320×480;
設待分類物體個數為N2,待分類物體材質的種類為M2個,記每類待分類物體的標簽為其中1≤M2≤M1,分別采集所有N2個待分類物體的視覺圖像I2、觸覺加速度A2和觸覺聲音S2,建立一個包括I2、A2和S2的數據集D2,I2的圖像大小為320×480;
(2)對上述數據集D1和數據集D2視覺圖像進行視覺圖像預處理、觸覺加速度信號進行觸覺加速度預處理和觸覺聲音信號進行觸覺聲音預處理,分別得到視覺圖像、觸覺加速度頻譜圖和觸覺聲音頻譜圖,包括以下步驟:
(2-1)利用降采樣方法,對圖像大小為320×480的圖像I1和圖像I2進行降采樣,得到I1和I2的大小為32×32×3的視覺圖像;
(2-2)利用短時傅里葉變換方法,分別將觸覺加速度A1和觸覺加速度A2轉換到頻域,短時傅里葉變換中的漢明窗的窗口長度為500,窗口偏移量為100,采樣頻率為10kHz,分別得到觸覺加速度A1和觸覺加速度A2的頻譜圖,從頻譜圖中選擇前500個低頻信道作為頻譜圖像,對該頻譜圖像進行降采樣,得到A1和A2的大小為32×32×3的觸覺加速度頻譜圖像;
(2-3)利用短時傅里葉變換方法,分別將觸覺聲音S1和觸覺聲音S2轉換到頻域,短時傅里葉變換中的漢明窗的窗口長度為500,窗口偏移量為100,采樣頻率為10kHz,分別得到觸覺聲音S1和觸覺聲音S2的頻譜圖,從頻譜圖中選擇前500個低頻信道作為頻譜圖像,對該頻譜圖像進行降采樣,得到S1和S2的大小為32×32×3的聲音頻譜圖像;
(3)通過多尺度特征映射,獲得視覺模態、觸覺加速度模態和觸覺聲音模態的卷積特征,包括以下步驟:
(3-1)將上述步驟(2)得到的I1和I2的大小為32×32×3的視覺圖像、A1和A2的大小為32×32×3的觸覺加速度頻譜圖像和S1和S2的大小為32×32×3的聲音頻譜圖像輸入到神經網絡第一層,即輸入層,輸入圖像的大小為d×d×3,該神經網絡中的局部感受野具有Ψ個尺度通道,Ψ個尺度通道的大小分別為r1,r2,…,rΨ,每個尺度通道產生K個不同的輸入權重,從而隨機生成Ψ×K個特征圖,將神經網絡隨機產生的第Φ個尺度通道的視覺圖像、觸覺加速度頻譜圖和聲音頻譜圖的初始權重記為和和分別由和逐列組成,其中,上角標I表示訓練樣本和待分類物體的視覺模態,上角標A表示訓練樣本和待分類物體的觸覺加速度模態,S表示訓練樣本和待分類物體的觸覺聲音模態,表示初始權重,表示產生第ζ個特征圖的初始權重,1≤Φ≤Ψ,1≤ζ≤K,第Φ個尺度局部感受野的大小為rΦ×rΦ,
進而得到第Φ個尺度通道的所有K個特征圖的大小為(d-rΦ+1)×(d-rΦ+1);
(3-2)使用奇異值分解方法,對上述第Φ個尺度通道的初始權重矩陣進行正交化處理,得到正交矩陣和和中的每一列和分別為的正交基,第Φ個尺度通道的第ζ個特征圖的輸入權重和分別為由和形成的方陣;
利用下式,分別計算視覺模態、觸覺加速度模態和觸覺聲音模態的第Φ個尺度通道的第ζ特征圖中的節點(i,j)的卷積特征:
和分別表示視覺模態、觸覺加速度模態和觸覺聲音模態的第Φ個尺度通道中第ζ特征圖的節點(i,j)的卷積特征,x是與節點(i,j)對應的矩陣;
(4)對上述視覺模態、觸覺加速度模態和觸覺聲音模態的卷積特征進行多尺度平方根池化,池化尺度有Ψ個尺度,Ψ個尺度的大小分別為e1,e2,…,eΨ,第Φ個尺度下池化大小eΦ表示池化中心和邊緣之間的距離,池化圖和特征圖大小相同,為(d-rΦ+1)×(d-rΦ+1),根據上述步驟(3)得到的卷積特征,利用下式計算池化特征:
若節點i不在(0, (d-rΦ+1))內,節點j不在(0, (d-rΦ+1))內,則和均為零,
Φ=1,2,3...,Ψ,
ζ=1,2,3...,K,
其中,和分別表示視覺模態、觸覺加速度模態和觸覺聲音模態的第Φ個尺度通道中第ζ個池化圖的節點(p,q)的池化特征;
(5)根據上述池化特征,得到三個模態的全連接特征向量,包括以下步驟:
(5-1)將步驟(4)的池化特征中的第ω個訓練樣本的視覺圖像模態、觸覺加速度模態和觸覺聲音模態的池化圖的所有池化特征,分別連接成一個行向量和其中1≤ω≤N1;
(5-2)遍歷N1個訓練樣本,重復上述步驟(5-1),分別得到N1訓練樣本的視覺圖像模態、觸覺加速度模態和觸覺聲音模態的行向量組合,記為:
其中,表示視覺模態的組合特征向量矩陣,表示觸覺加速度模態特征矩陣,表示觸覺聲音模態的特征向量矩陣;
(6)三個模態的全連接特征向量,進行多模態融合,得到多模態融合后的混合矩陣,包括以下步驟:
(6-1)將上述步驟(5)的N1訓練樣本的視覺圖像模態、觸覺加速度模態和觸覺聲音模態的行向量輸入混合層進行組合處理,得到一個混合矩陣H=[HI,HA,HS];
(6-2)對步驟(6-1)的混合矩陣H中的每個樣本的混合行向量進行調整,生成一個多模態融合后的二維混合矩陣,二維混合矩陣的大小為d'×d”,其中,d'是二維矩陣的長度,取值范圍為
(7)將上述步驟(6)得到的多模態融合后的混合矩陣輸入到神經網絡的混合網絡層,通過多尺度特征映射,獲得多模態混合卷積特征,包括以下步驟:
(7-1)將上述步驟(6-2)得到的多模態融合后的混合矩陣輸入到混合網絡中,混合矩陣的大小為d'×d”,該混合網絡有Ψ'個尺度通道,Ψ'個尺度通道的大小分別為r1,r2,…,rΨ',每個尺度通道產生K'個不同的輸入權重,從而隨機生成Ψ'×K'個混合特征圖,將混合網絡隨機產生第Φ'個尺度通道混合初始權重記為由逐列組成,其中上角標hybrid表示三模態融合,表示混合網絡的初始權重,表示產生第ζ'個混合特征圖的初始權重,1≤Φ'≤Ψ',1≤ζ'≤K',第Φ'個尺度通道局部感受野的大小為rΦ'×rΦ',那么
進而得到第Φ'個尺度通道第ζ'個特征圖的大小為(d'-rΦ'+1)×(d”-rΦ'+1);
(7-2)使用奇異值分解方法,對上述第Φ'個尺度通道初始權重矩陣進行正交化處理,得到正交矩陣的每一列是的正交基,第Φ'個尺度通道的第ζ'個特征圖的輸入權重是由形成的方陣;
利用下式,計算第Φ'個尺度通道的第ζ'特征圖中的卷積節點(i',j')混合卷積特征:
是第Φ'個尺度通道的第ζ'特征圖中的卷積節點(i',j')混合卷積特征,x'是與節點(i',j')對應的矩陣;
(8)對上述混合卷積特征,進行混合多尺度平方根池化,池化尺度有Ψ'個尺度,大小分別為e1,e2,…,eΨ',第Φ'個尺度下池化圖和特征圖大小相同,為(d'-rΦ'+1)×(d”-rΦ'+1),根據上述步驟(7)得到的混合卷積特征,利用下式計算混合池化特征:
若節點i'不在(0, (d’-rΦ’+1))內,節點j'不在(0, (d’-rΦ’+1))內,則為零,
Φ'=1,2,3...,Ψ',
ζ'=1,2,3...,K';
其中,表示第Φ'個尺度通道的第ζ'個池化圖的組合節點(p',q')的混合池化特征;
(9)根據上述混合池化特征,采用步驟(5)的方法,將不同尺度的混合池化特征向量進行全連接,得到混合網絡的組合特征矩陣其中K'表示每個尺度通道產生不同特征圖的個數;
(10)根據上述步驟(9)得到的混合網絡的組合特征矩陣Hhybric,利用下式,根據訓練樣本的個數N1,計算神經網絡的訓練樣本輸出權重β:
若則
若則
其中,T是訓練樣本的期望值,C為正則化系數,取值為任意值,上標T表示矩陣轉置;
(11)利用上述步驟(3)中三個模態初始權重正交化后的正交矩陣和對經過預處理的待分類數據集D2,利用上述步驟(3)-步驟(9)的方法,得到待分類樣本的混合網絡的組合特征矩陣Htest;
(12)根據上述步驟(10)的訓練樣本輸出權重β和上述步驟(11)的待分類樣本的混合網絡的組合特征矩陣Htest,利用下式計算出N2個待分類樣本的預測標簽με,實現基于多模態融合深度學習的物體材質分類,
με=Htestβ 1≤ε≤M2。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710599106.1/1.html,轉載請聲明來源鉆瓜專利網。





