[發明專利]一種基于擴張卷積塊的多模態融合顯著性檢測方法在審
| 申請號: | 202010850264.1 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112149662A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 周武杰;張欣悅;雷景生;靳婷;史文彬 | 申請(專利權)人: | 浙江科技學院 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06T7/90 |
| 代理公司: | 寧波奧圣專利代理有限公司 33226 | 代理人: | 周玨 |
| 地址: | 310023 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 擴張 卷積 多模態 融合 顯著 檢測 方法 | ||
1.一種基于擴張卷積塊的多模態融合顯著性檢測方法,其特征在于包括訓練階段和測試階段兩個過程;
所述的訓練階段過程的具體步驟為:
步驟①_1:選取K幅原始立體圖像的RGB圖和深度圖及每幅原始立體圖像對應的真實人眼注釋圖構成訓練集,將訓練集中的第i幅原始立體圖像的RGB圖和深度圖對應記為和將訓練集中與第i幅原始立體圖像對應的真實人眼注釋圖記為其中,K為正整數,K≥200,1≤i≤K,(x,y)代表像素點的坐標位置,用W表示原始立體圖像的寬度,用H表示原始立體圖像的高度,則有1≤x≤W,1≤y≤H,表示中坐標位置為(x,y)的像素點的像素值,表示中坐標位置為(x,y)的像素點的像素值,表示中坐標位置為(x,y)的像素點的像素值;
步驟①_2:構建卷積神經網絡:該卷積神經網絡包括輸入層、隱層和輸出層,輸入層由RGB圖輸入層和深度圖輸入層兩部分構成,隱層由第1個神經網絡塊至第10個神經網絡塊、漸增擴張卷積塊、第1個通道注意力模塊至第4個通道注意力模塊、特征交互增強模塊、第1個上采樣塊至第5個上采樣塊組成,漸增擴張卷積塊由第1個擴張卷積塊至第10個擴張卷積塊組成;
對于RGB圖輸入層,其輸入端接收一幅原始RGB圖的R通道分量、G通道分量和B通道分量,其輸出端輸出原始RGB圖的R通道分量、G通道分量和B通道分量給隱層;其中,原始RGB圖的寬度為W、高度為H;
對于深度圖輸入層,其輸入端接收一幅原始深度圖通過采用HHA方法處理成的三通道深度圖,其輸出端輸出三通道深度圖給隱層;其中,原始深度圖的寬度為W、高度為H;
對于隱層,第1個神經網絡塊的輸入端作為隱層的第一輸入端接收RGB圖輸入層的輸出端輸出的原始RGB圖的R通道分量、G通道分量和B通道分量,第1個神經網絡塊的輸出端輸出64幅特征圖,將這64幅特征圖構成的集合記為S1,S1中的每幅特征圖的寬度為高度為第2個神經網絡塊的輸入端接收S1中的所有特征圖,第2個神經網絡塊的輸出端輸出128幅特征圖,將這128幅特征圖構成的集合記為S2,S2中的每幅特征圖的寬度為高度為第3個神經網絡塊的輸入端接收S2中的所有特征圖,第3個神經網絡塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為S3,S3中的每幅特征圖的寬度為高度為第4個神經網絡塊的輸入端接收S3中的所有特征圖,第4個神經網絡塊的輸出端輸出512幅特征圖,將這512幅特征圖構成的集合記為S4,S4中的每幅特征圖的寬度為高度為第5個神經網絡塊的輸入端接收S4中的所有特征圖,第5個神經網絡塊的輸出端輸出512幅特征圖,將這512幅特征圖構成的集合記為S5,S5中的每幅特征圖的寬度為高度為第6個神經網絡塊的輸入端作為隱層的第二輸入端接收深度圖輸入層的輸出端輸出的三通道深度圖,第6個神經網絡塊的輸出端輸出64幅特征圖,將這64幅特征圖構成的集合記為S6,S6中的每幅特征圖的寬度為高度為第7個神經網絡塊的輸入端接收S6中的所有特征圖,第7個神經網絡塊的輸出端輸出128幅特征圖,將這128幅特征圖構成的集合記為S7,S7中的每幅特征圖的寬度為高度為第8個神經網絡塊的輸入端接收S7中的所有特征圖,第8個神經網絡塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為S8,S8中的每幅特征圖的寬度為高度為第9個神經網絡塊的輸入端接收S8中的所有特征圖,第9個神經網絡塊的輸出端輸出512幅特征圖,將這512幅特征圖構成的集合記為S9,S9中的每幅特征圖的寬度為高度為第10個神經網絡塊的輸入端接收S9中的所有特征圖,第10個神經網絡塊的輸出端輸出512幅特征圖,將這512幅特征圖構成的集合記為S10,S10中的每幅特征圖的寬度為高度為第1個擴張卷積塊的輸入端接收S1中的所有特征圖,第1個擴張卷積塊的輸出端輸出32幅特征圖,將這32幅特征圖構成的集合記為Z1,Z1中的每幅特征圖的寬度為高度為第2個擴張卷積塊的輸入端接收S2中的所有特征圖,第2個擴張卷積塊的輸出端輸出64幅特征圖,將這64幅特征圖構成的集合記為Z2,Z2中的每幅特征圖的寬度為高度為第3個擴張卷積塊的輸入端接收S2中的所有特征圖,第3個擴張卷積塊的輸出端輸出64幅特征圖,將這64幅特征圖構成的集合記為Z3,Z3中的每幅特征圖的寬度為高度為第4個擴張卷積塊的輸入端接收S3中的所有特征圖,第4個擴張卷積塊的輸出端輸出128幅特征圖,將這128幅特征圖構成的集合記為Z4,Z4中的每幅特征圖的寬度為高度為第5個擴張卷積塊的輸入端接收S3中的所有特征圖,第5個擴張卷積塊的輸出端輸出128幅特征圖,將這128幅特征圖構成的集合記為Z5,Z5中的每幅特征圖的寬度為高度為第6個擴張卷積塊的輸入端接收S3中的所有特征圖,第6個擴張卷積塊的輸出端輸出128幅特征圖,將這128幅特征圖構成的集合記為Z6,Z6中的每幅特征圖的寬度為高度為第7個擴張卷積塊的輸入端接收S4中的所有特征圖,第7個擴張卷積塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為Z7,Z7中的每幅特征圖的寬度為高度為第8個擴張卷積塊的輸入端接收S4中的所有特征圖,第8個擴張卷積塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為Z8,Z8中的每幅特征圖的寬度為高度為第9個擴張卷積塊的輸入端接收S4中的所有特征圖,第9個擴張卷積塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為Z9,Z9中的每幅特征圖的寬度為高度為第10個擴張卷積塊的輸入端接收S4中的所有特征圖,第10個擴張卷積塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為Z10,Z10中的每幅特征圖的寬度為高度為第1個通道注意力模塊至第4個通道注意力模塊的結構相同,第1個通道注意力模塊的第一輸入端接收Z1中的所有特征圖,第1個通道注意力模塊的第二輸入端接收S6中的所有特征圖,第2個通道注意力模塊的第一輸入端接收對Z2中的所有特征圖和Z3中的所有特征圖進行元素相加操作后得到的所有特征圖,第2個通道注意力模塊的第二輸入端接收S7中的所有特征圖,第3個通道注意力模塊的第一輸入端接收對Z4中的所有特征圖、Z5中的所有特征圖和Z6中的所有特征圖進行元素相加操作后得到的所有特征圖,第3個通道注意力模塊的第二輸入端接收S8中的所有特征圖,第4個通道注意力模塊的第一輸入端接收對Z7中的所有特征圖、Z8中的所有特征圖、Z9中的所有特征圖和Z10中的所有特征圖進行元素相加操作后得到的所有特征圖,第4個通道注意力模塊的第二輸入端接收S9中的所有特征圖,每個通道注意力模塊對第一輸入端接收的所有特征圖和第二輸入端接收的所有特征圖進行元素相加操作得到多幅第一調整圖,將所有第一調整圖構成的集合記為T1,對T1中的每幅第一調整圖進行矩陣形狀調整操作得到第二調整圖,將所有第二調整圖構成的集合記為T2,對T2中的每幅第二調整圖進行矩陣轉置操作得到第三調整圖,將所有第三調整圖構成的集合記為T3,對T3中的所有第三調整圖和T2中的所有第二調整圖進行元素相乘操作得到多幅第一元素相乘圖,將所有第一元素相乘圖構成的集合記為T4,利用softmax函數對T4中的每幅第一元素相乘圖進行處理后乘上學習參數α得到第一處理圖,將所有第一處理圖構成的集合記為T5,利用sigmoid函數對T4中的每幅第一元素相乘圖進行處理后乘上學習參數(1-α)得到第二處理圖,將所有第二處理圖構成的集合記為T6,對T5中的所有第一處理圖和T6中的所有第二處理圖進行元素相加操作得到多幅初步注意力圖,將所有初步注意力圖構成的集合記為T7,對T7中的所有初步注意力圖和T1中的所有第一調整圖進行元素相乘操作得到多幅第二元素相乘圖,將所有第二元素相乘圖構成的集合記為T8,對T8中的每幅第二元素相乘圖進行矩陣形狀調整操作得到第四調整圖,將所有第四調整圖構成的集合記為T9,對T9中的所有第四調整圖和和T1中的所有第一調整圖進行元素相加操作得到多幅最終注意力圖,將所有最終注意力圖作為每個通道注意力模塊的輸出端輸出的所有特征圖,將第1個通道注意力模塊的輸出端輸出的所有特征圖構成的集合記為F1,將第2個通道注意力模塊的輸出端輸出的所有特征圖構成的集合記為F2,將第3個通道注意力模塊的輸出端輸出的所有特征圖構成的集合記為F3,將第4個通道注意力模塊的輸出端輸出的所有特征圖構成的集合記為F4,F1中包含96幅特征圖且每幅特征圖的寬度為高度為F2中包含256幅特征圖且每幅特征圖的寬度為高度為F3中包含640幅特征圖且每幅特征圖的寬度為高度為F4中包含1536幅特征圖且每幅特征圖的寬度為高度為特征交互增強模塊由1×1卷積塊、第一自適應池化層、第二自適應池化層、第四激活層、第五激活層、第11個擴張卷積塊至第18個擴張卷積塊組成,第四激活層和第五激活層的激活方式為“ReLU函數”,1×1卷積塊的輸入端作為特征交互增強模塊的輸入端接收S5中的所有特征圖,1×1卷積塊的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為E1,E1中的每幅特征圖的寬度為高度為第一自適應池化層的輸入端和第二自適應池化層的輸入端分別接收E1中的所有特征圖,第一自適應池化層的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為E2,E2中的每幅特征圖的寬度為高度為第二自適應池化層的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為E3,E3中的每幅特征圖的寬度為高度為第四激活層的輸入端接收E2中的所有特征圖,第五激活層的輸入端接收E3中的所有特征圖,第四激活層的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為E4,E4中的每幅特征圖的寬度為高度為第五激活層的輸出端輸出256幅特征圖,將這256幅特征圖構成的集合記為E5,E5中的每幅特征圖的寬度為高度為第11個擴張卷積塊至第14個擴張卷積塊各自的輸入端分別接收E4中的所有特征圖,第15個擴張卷積塊至第18個擴張卷積塊各自的輸入端分別接收E5中的所有特征圖,第11個擴張卷積塊至第18個擴張卷積塊各自的輸出端輸出128幅特征圖,將第11個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E6,將第12個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E7,將第13個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E8,將第14個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E9,將第15個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E10,將第16個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E11,將第17個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E12,將第18個擴張卷積塊的輸出端輸出的128幅特征圖構成的集合記為E13,E6、E7、E8、E9、E10、E11、E12、E13中的每幅特征圖的寬度為高度為對E6中的所有特征圖、E7中的所有特征圖、E8中的所有特征圖、E9中的所有特征圖進行通道數疊操作,得到512幅特征圖,將這512幅特征圖構成的集合記為E14,E14中的每幅特征圖的寬度為高度為對E10中的所有特征圖、E11中的所有特征圖、E12中的所有特征圖、E13中的所有特征圖進行通道數疊操作,得到512幅特征圖,將這512幅特征圖構成的集合記為E15,E15中的每幅特征圖的寬度為高度為將利用softmax函數對E14中的所有特征圖進行處理后得到的所有特征圖和利用softmax函數對E15中的所有特征圖進行處理后得到的所有特征圖進行通道數疊操作,得到1024幅特征圖,將這1024幅特征圖構成的集合記為E16,E16中的每幅特征圖的寬度為高度為特征交互增強模塊的輸出端輸出E16中的所有特征圖;對E16中的所有特征圖和S10中的所有特征圖進行通道數疊操作,得到1536幅特征圖,將這1536幅特征圖構成的集合記為C0,C0中的每幅特征圖的寬度為高度為第1個上采樣塊的輸入端接收C0中的所有特征圖,第1個上采樣塊的輸出端輸出768幅特征圖,將這768幅特征圖構成的集合記為C1,C1中的每幅特征圖的寬度為高度為第2個上采樣塊的輸入端接收對C1中的所有特征圖和F4中的所有特征圖進行通道數疊操作后得到的所有特征圖,第2個上采樣塊的輸出端輸出1652幅特征圖,將這1652幅特征圖構成的集合記為C2,C2中的每幅特征圖的寬度為高度為第3個上采樣塊的輸入端接收對C2中的所有特征圖和F3中的所有特征圖進行通道數疊操作后得到的所有特征圖,第3個上采樣塊的輸出端輸出1646幅特征圖,將這1646幅特征圖構成的集合記為C3,C3中的每幅特征圖的寬度為高度為第4個上采樣塊的輸入端接收對C3中的所有特征圖和F2中的所有特征圖進行通道數疊操作后得到的所有特征圖,第4個上采樣塊的輸出端輸出951幅特征圖,將這951幅特征圖構成的集合記為C4,C4中的每幅特征圖的寬度為高度為第5個上采樣塊的輸入端接收對C4中的所有特征圖和F1中的所有特征圖進行通道數疊操作后得到的所有特征圖,第5個上采樣塊的輸出端作為隱層的輸出端輸出1幅特征圖,該幅特征圖的寬度為W、高度為H;
對于輸出層,其輸入端接收隱層的輸出端輸出的1幅特征圖,其輸出端輸出的特征圖作為顯著性檢測圖;
步驟①_3:將訓練集中的每幅原始立體圖像的RGB圖作為原始RGB圖,并將訓練集中的每幅原始立體圖像的深度圖作為原始深度圖,將原始RGB圖的R通道分量、G通道分量和B通道分量及對應的原始深度圖經HHA方法處理后得到的三通道深度圖輸入到卷積神經網絡中進行訓練,得到訓練集中的每幅原始立體圖像對應的顯著性檢測圖,將訓練集中與第i幅原始立體圖像對應的顯著性檢測圖記為其中,表示中坐標位置為(x,y)的像素點的像素值;
步驟①_4:計算訓練集中的每幅原始立體圖像對應的顯著性檢測圖與對應的真實人眼注釋圖之間的損失函數值,將與之間的損失函數值記為采用均方誤差加上Kullback-Leibler散度系數獲得;
步驟①_5:重復執行步驟①_3和步驟①_4共V次,得到卷積神經網絡訓練模型,并共得到K×V個損失函數值;然后從K×V個損失函數值中找出值最小的損失函數值;接著將最小的損失函數值對應的權值矢量和偏置項對應作為卷積神經網絡訓練模型的最優權值矢量和最優偏置項;其中,V>1;
所述的測試階段過程的具體步驟為:
步驟②_1:將待檢測的立體圖像的RGB圖的R通道分量、G通道分量和B通道分量及深度圖經HHA方法處理后得到的三通道深度圖輸入到訓練好的卷積神經網絡訓練模型中,并利用最優權值矢量和最優偏置項進行預測,預測得到對應的顯著性檢測圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江科技學院,未經浙江科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010850264.1/1.html,轉載請聲明來源鉆瓜專利網。





