[發明專利]一種面向多模態圖像能見度檢測的神經網絡構建方法有效
| 申請號: | 202110635322.3 | 申請日: | 2021-06-08 |
| 公開(公告)號: | CN113283529B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 王晗;沈克成;劉佳麗;施佺 | 申請(專利權)人: | 南通大學 |
| 主分類號: | G06V10/80 | 分類號: | G06V10/80;G06K9/62;G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 許潔 |
| 地址: | 226000*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 多模態 圖像 能見度 檢測 神經網絡 構建 方法 | ||
1.一種面向多模態圖像能見度檢測的神經網絡構建方法,包括如下步驟:
步驟1)構建基于注意力模型調節的多尺度可變形卷積可見光圖像特征提取網絡模塊;
步驟2)構建基于注意力模型調節的多尺度可變形卷積遠紅外圖像特征提取網絡模塊;
步驟3)構建可見光-遠紅外雙模態圖像特征融合網絡模塊;
步驟4)將步驟1)可見光圖像特征提取網絡模塊與步驟2)遠紅外圖像特征提取網絡模塊輸出的特征拼接,作為步驟3)可見光-遠紅外雙模態圖像特征融合網絡的輸入,串聯組合成雙模態能見度等級分類網絡;
所述的步驟1)的具體內容為:
“可見光圖像特征提取網絡模塊”的網絡結構共有五層,分別是輸入層、卷積層、多尺度特征融合層1、可變形卷積層、多尺度特征融合層2,其中,輸入層為尺寸224×224,通道數為3的可見光輸入圖像;卷積層由3×3卷積核與5×5卷積核這兩種不同尺度下的卷積組成,卷積核個數均為64,每個卷積層后接一個Relu激活層和BatchNormalization層;
多尺度特征融合層1是利用注意力機制對卷積層所輸出的不同卷積尺度下的特征進行融合,具體操作如下:將卷積層中3×3卷積得到的大小為112×112×64的特征F3×3與5×5卷積得到的大小為112×112×64的特征F5×5進行拼接,得到大小為112×112×128的拼接特征F;然后,分別進行一個空間的全局平均池化和最大池化得到兩個 1×1×128 的通道描述;接著,再將它們分別送入一個兩層的神經網絡,第一層神經元個數為 128/r,r為系數,激活函數為 Relu,第二層神經元個數為 128,該兩層的神經網絡共享;再將得到的兩個特征相加后經過一個 Sigmoid 激活函數得到權重系數 Mc,Mc則對應不同卷積尺度下各通道域的重要性,將Mc與F相乘得到注意力修正后的多尺度拼接特征;最后,將修正后的拼接特征重新拆分成兩個112×112×64的多尺度注意力修正特征,并將這兩個特征做元素相加;
可變形卷積層的輸入為上一層的多尺度注意力修正融合特征,卷積核個數為128,每個卷積層后接一個Relu激活層和BatchNormalization層,具體操作過程如下:首先,利用卷積的輸出得到可變形卷積所需要的位移量,然后,將其作用在卷積核上,達到可變形卷積的效果;
多尺度特征融合層2是利用注意力機制對可變形卷積層所輸出的不同卷積尺度下的特征進行融合,具體操作如下:將可變形卷積層中3×3卷積得到的大小為56×56×128的特征F3×3與5×5卷積得到的大小為56×56×128的特征F5×5進行拼接,得到大小為56×56×256的拼接特征 F;然后,分別進行一個空間的全局平均池化和最大池化得到兩個 1×1×256的通道描述;接著,再將它們分別送入一個兩層的神經網絡,第一層神經元個數為 256/r,r為系數,激活函數為 Relu,第二層神經元個數為 256,這個兩層的神經網絡是共享的;再將得到的兩個特征相加后經過一個 Sigmoid 激活函數得到權重系數 Mc,Mc則對應不同卷積尺度下各通道域的重要性,將Mc與F相乘得到注意力修正后的多尺度拼接特征;最后,將修正后的拼接特征重新拆分成兩個56×56×128的多尺度注意力修正特征,并將這兩個特征做元素相加,“可見光圖像特征提取網絡”的輸出為56×56×128的可見光圖像特征;
所述的步驟2)的具體內容為:
“遠紅外圖像特征提取網絡模塊”的網絡結構共有五層,分別是輸入層、卷積層、多尺度特征融合層1、可變形卷積層、多尺度特征融合層2,其中,輸入層為尺寸224×224,通道數為3的遠紅外輸入圖像;卷積層由3×3卷積核與5×5卷積核這兩種不同尺度下的卷積組成,卷積核個數均為64,每個卷積層后接一個Relu激活層和BatchNormalization層;
多尺度特征融合層1是利用注意力機制對卷積層所輸出的不同卷積尺度下的特征進行融合,具體操作如下:將卷積層中3×3卷積得到的大小為112×112×64的特征F3×3與5×5卷積得到的大小為112×112×64的特征F5×5進行拼接,得到大小為112×112×128的拼接特征F;然后,分別進行一個空間的全局平均池化和最大池化得到兩個 1×1×128 的通道描述;接著,再將它們分別送入一個兩層的神經網絡,第一層神經元個數為 128/r,r為系數,激活函數為 Relu,第二層神經元個數為 128,注意,這個兩層的神經網絡是共享的;再將得到的兩個特征相加后經過一個 Sigmoid 激活函數得到權重系數 Mc,Mc則對應不同卷積尺度下各通道域的重要性,將Mc與F相乘得到注意力修正后的多尺度拼接特征;最后將修正后的拼接特征重新拆分成兩個112×112×64的多尺度注意力修正特征,并將這兩個特征做元素相加;
可變形卷積層的輸入為上一層的多尺度注意力修正融合特征,卷積過程與卷積層類似,卷積核個數為128,每個卷積層后接一個Relu激活層和BatchNormalization層;具體操作過程如下:首先,利用卷積的輸出得到可變形卷積所需要的位移量,然后,將其作用在卷積核上,達到可變形卷積的效果;
多尺度特征融合層2是利用注意力機制對可變形卷積層所輸出的不同卷積尺度下的特征進行融合,具體操作如下:將可變形卷積層中3×3卷積得到的大小為56×56×128的特征F3×3與5×5卷積得到的大小為56×56×128的特征F5×5進行拼接,得到大小為56×56×256的拼接特征 F;然后分別進行一個空間的全局平均池化和最大池化得到兩個 1×1×256的通道描述;接著,再將它們分別送入一個兩層的神經網絡,第一層神經元個數為 256/r,r為系數,激活函數為 Relu,第二層神經元個數為 256,這個兩層的神經網絡是共享的;再將得到的兩個特征相加后經過一個 Sigmoid 激活函數得到權重系數 Mc,Mc則對應不同卷積尺度下各通道域的重要性,將Mc與F相乘得到注意力修正后的多尺度拼接特征;最后,將修正后的拼接特征重新拆分成兩個56×56×128的多尺度注意力修正特征,并將這兩個特征做元素相加,“遠紅外圖像特征提取網絡”的輸出56×56×128的遠紅外圖像特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通大學,未經南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110635322.3/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





