[發明專利]一種基于彩色相機與紅外熱成像儀特征融合的目標檢測方法有效
申請號: | 202010135485.0 | 申請日: | 2020-03-02 |
公開(公告)號: | CN111382683B | 公開(公告)日: | 2023-05-23 |
發明(設計)人: | 殷國棟;吳愿;薛培林;耿可可;莊偉超;黃文涵;沈童;于晨風;鄒偉;盧彥博;王金湘;張寧;陳建松;任祖平 | 申請(專利權)人: | 東南大學 |
主分類號: | G06V20/56 | 分類號: | G06V20/56;G06V10/20;G06V10/80 |
代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 彭英 |
地址: | 210096 江蘇省*** | 國省代碼: | 江蘇;32 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 基于 彩色 相機 紅外 成像 特征 融合 目標 檢測 方法 | ||
1.一種基于彩色相機與紅外熱成像儀特征融合的目標檢測方法,其特征在于包括以下步驟:
a、通過彩色相機獲得彩色數據集,通過紅外熱成像儀獲得熱紅外數據集;
b、將所述彩色數據集和熱紅外數據集組成的雙模態數據集同時輸入到雙模態的YOLOv3神經網絡算法中,提取目標的顏色特征與溫度特征;在YOLOv3主干網絡的某一層通過融合函數與1×1卷積塊將兩個模態的特征融合,然后選取融合后的特征圖繼續進行主干網絡的特征提取,得到融合后的提取特征圖;
c、融合后的提取特征圖輸入到后續的卷積層中進行目標的分類,最終輸出一個訓練完成的雙模態神經網絡的算法模型;
所述雙模態的YOLOv3神經網絡算法包括雙通道的輸入層;輸入層的一個通道輸入彩色數據集,另一個通道輸入熱紅外數據集;
所述雙模態的YOLOv3神經網絡算法包括主干網絡及后續的卷積層;所述主干網絡為Darknet-53,共計52層;所述后續的卷積層共計23層;
步驟b中所述融合函數的公式為yi=f(pi,qi);
其中pi為某一層的彩色數據集的特征圖矩陣,維度是n×c1×h×w;qi為某一層的熱紅外數據集的特征圖矩陣,維度是n×c2×h×w;
n表示圖像數量,h表示特征圖矩陣的高度,w表示特征圖矩陣的寬度,c1表示彩色數據集的特征圖矩陣的通道數,c2表示熱紅外數據集的特征圖矩陣的通道數;
經過融合函數后得到的yi矩陣的維度為n×c0×h×w,其中c0=c1+c2。
2.根據權利要求1所述的基于彩色相機與紅外熱成像儀特征融合的目標檢測方法,其特征在于:所述步驟b可采用如下任意一種方案:
方案一、
b.1、在主干網絡的第1層通過融合函數與1×1卷積塊進行融合;
將所述彩色數據集和熱紅外數據集同時輸入到雙模態的YOLOv3神經網絡算法的第一層,通過融合函數將兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述彩色數據集的維度是n×c1×h×w,所述熱紅外數據集的維度是n×c2×h×w,疊加數據集的維度是n×c0×h×w;其中c0=c1+c2;
所述1×1卷積塊包括3個維度為c0×1×1的卷積核函數和激活函數;
每一個卷積核進行圖像特征的提取時,c0×1×1的卷積核分別與疊加數據集圖像上每個單位區域的c0×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;則經過加權求和以后的單個圖像矩陣維度變為1×h×w;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出融合后圖像的矩陣為n×3×h×w;
b.2、將融合后圖像矩陣繼續輸入原主干網絡的52層進行特征提取的操作,提取到的特征從淺層單個線條與顏色等邊緣性特征繼而到深層圖像上某一部分的深層語義特征;由于網絡算法增加了一層1×1卷積層,所以其他層的卷積層序號依次增加1,網絡第26層輸出第一提取特征圖,第43層輸出第二提取特征圖,第52層輸出第三提取特征圖;其中第一提取特征圖的矩陣維度是n×256×h/8×w/8,第二提取特征圖的矩陣維度是n×512×h/16×w/16、第三提取特征圖的矩陣維度是n×1024×h/32×w/32,至此,Darknet-53卷積層執行結束;
方案二、
b.1、將所述彩色數據集和熱紅外數據集同時輸入到雙模態的YOLOv3神經網絡算法,利用主干網絡的前25個卷積層分別進行雙模態數據集的特征提取,通過卷積操作提取到從淺層單個線條與顏色等邊緣性特征,繼而到深層圖像上某一部分的深層語義特征;經過前25層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×256×h/8×w/8;
b.2、將第25層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;通過融合函數將第25層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×512×h/8×w/8;
所述1×1卷積塊包括256個維度為512×1×1的卷積核函數和激活函數;
每一個卷積核進行圖像特征的提取時,512×1×1的卷積核分別與疊加數據集圖像上每個單位區域的512×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;則經過加權求和以后的單個圖像矩陣維度變為1×h/8×w/8;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第一提取特征圖的矩陣為n×256×h/8×w/8;
b.3、將第一提取特征圖的矩陣繼續輸入到主干網絡剩下的卷積層中繼續進行特征的提取,由于在第26層增加了一層1×1卷積,所以主干網絡26層之后的卷積層層數序號依次加一;第43層輸出第二提取特征圖,第52層輸出第三提取特征圖;其中第二提取特征圖的矩陣維度是n×512×h/16×w/16、第三提取特征圖的矩陣維度是n×1024×h/32×w/32,至此,Darknet-53卷積層執行結束;
方案三、
b.1、將所述彩色數據集和熱紅外數據集同時輸入到雙模態的YOLOv3神經網絡算法,利用主干網絡的前42個卷積層分別進行雙模態數據集的特征提取,通過卷積操作提取到從淺層單個線條與顏色等邊緣性特征,繼而到深層圖像上某一部分的深層語義特征;
b.2、第25層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×256×h/8×w/8;
將第25層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;
通過融合函數將第25層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×512×h/8×w/8;
第25層使用的所述1×1卷積塊包括256個維度為512×1×1的卷積核函數和激活函數;每一個卷積核進行圖像特征的提取時,512×1×1的卷積核分別與疊加數據集圖像上每個單位區域的512×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;
則經過加權求和以后的單個圖像矩陣維度變為1×h/8×w/8;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第一提取特征圖的矩陣為n×256×h/8×w/8;
b.3、第42層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×512×h/16×w/16;
將第42層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;
通過融合函數將第42層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×1024×h/16×w/16;
第42層使用的所述1×1卷積塊包括512個維度為1024×1×1的卷積核函數和激活函數;每一個卷積核進行圖像特征的提取時,1024×1×1的卷積核分別與疊加數據集圖像上每個單位區域的1024×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;則經過加權求和以后的單個圖像矩陣維度變為1×h/16×w/16;疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第二提取特征圖的矩陣為n×512×h/16×w/16;
b.4、將第二提取特征圖的矩陣繼續輸入到主干網絡剩下的卷積層中繼續進行特征的提取,直至輸出第三提取特征圖;
第三提取特征圖的矩陣維度是n×1024×h/32×w/32,至此,Darknet-53卷積層執行結束;
方案四、
b.1、將所述彩色數據集和熱紅外數據集同時輸入到雙模態的YOLOv3神經網絡算法,利用主干網絡的52個卷積層分別進行雙模態數據集的特征提取,通過卷積操作提取到從淺層單個線條與顏色等邊緣性特征,繼而到深層圖像上某一部分的深層語義特征;
b.2、第25層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×256×h/8×w/8;
第42層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×512×h/16×w/16;
第51層卷積后,彩色數據集和熱紅外數據集的特征圖輸出矩陣均為n×1024×h/32×w/32;
b.3、將第25層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;通過融合函數將第25層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×512×h/8×w/8;
第25層使用的所述1×1卷積塊包括256個維度為512×1×1的卷積核函數和激活函數;
每一個卷積核進行圖像特征的提取時,512×1×1的卷積核分別與疊加數據集圖像上每個單位區域的512×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;
則經過加權求和以后的單個圖像矩陣維度變為1×h/8×w/8;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第一提取特征圖的矩陣為n×256×h/8×w/8;
b.4、將第42層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;通過融合函數將第42層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×1024×h/16×w/16;
第42層使用的所述1×1卷積塊包括512個維度為1024×1×1的卷積核函數和激活函數;每一個卷積核進行圖像特征的提取時,1024×1×1的卷積核分別與疊加數據集圖像上每個單位區域的1024×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;則經過加權求和以后的單個圖像矩陣維度變為1×h/16×w/16;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第二提取特征圖的矩陣為n×512×h/16×w/16;
b.5、將第51層輸出的兩個模態的數據集圖像通過融合函數與1×1卷積塊進行融合;通過融合函數將第51層輸出的兩個模態的數據集圖像進行線性疊加,得到疊加數據集;所述疊加數據集的維度是n×2048×h/32×w/32;
第51層使用的所述1×1卷積塊包括1024個維度為2048×1×1的卷積核函數和激活函數;
每一個卷積核進行圖像特征的提取時,2048×1×1的卷積核分別與疊加數據集圖像上每個單位區域的2048×1×1的局部矩陣進行加權求和,輸出的矩陣維度為1×1×1;則經過加權求和以后的單個圖像矩陣維度變為1×h/32×w/32;
疊加數據集的每個圖像經過加權求和以后得到的矩陣,通過激活函數運算,輸出第三提取特征圖的矩陣為n×1024×h/32×w/32。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010135485.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語義解析方法及語義解析器
- 下一篇:一種聲源定位方法及裝置