[發明專利]一種基于知識蒸餾的多模小目標檢測方法有效
| 申請號: | 202110798886.9 | 申請日: | 2021-07-15 |
| 公開(公告)號: | CN113449680B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 李偉;王昊;黃展超;陶然 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06V20/10 | 分類號: | G06V20/10;G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 成都方圓聿聯專利代理事務所(普通合伙) 51241 | 代理人: | 鄧永紅 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 蒸餾 多模小 目標 檢測 方法 | ||
1.一種基于知識蒸餾的多模小目標檢測方法,其特征在于:包括以下步驟:
S1:構建可見光-多光譜圖像數據本征知識遷移模型;
S2:利用空譜聯合的非局部特征金字塔視覺注意力結構進行特征精煉;
S3:通過基于空譜聯合特征遷移的知識蒸餾模型精煉多光譜空譜聯合特征得到最終的深度神經網絡;
所述步驟S1包括以下子步驟:
S11:獲取包含大量可見光圖像目標檢測數據集,
S12:以深度學習目標檢測模型為基礎進行模型剪枝和分解,剪去與可見光目標檢測任務直接關聯的網絡層,包括三通道的輸入卷積層、面向可見光圖像目標位置回歸和分類的輸出卷積層或全連接層、以及其他在稀疏化訓練后冗余度高于預設閾值的卷積層,精簡后的模型即通過可見光大數據學習到的能夠提取目標本征知識的特征提取網絡;
S13:將精簡的特征提取網絡作為多光譜目標檢測與智能識別模型的網絡骨架,以此為基礎設計并增加面向多光譜圖像目標檢測識別任務的神經網絡層,包括輸入和預處理多光譜圖像的卷積層、多光譜圖像空譜聯合特征的提取和融合層、多光譜目標檢測分支的輸出卷積層、多光譜目標分類與識別分支的輸出卷積層,最終得到用于多光譜目標初次粗檢測的深度神經網絡模型;
S14:利用少量多光譜圖像對深度神經網絡模型進行微調訓練,訓練分為兩個階段進行,訓練過程采用凍結部分網絡層的分階段訓練策略,使得神經網絡能夠通過少量的多光譜數據樣本,遷移學習到在可見光大數據中提取的目標特征;在神經網絡訓練的第一階段,凍結基礎特征提取網絡的權值不更新,只通過訓練更新直接關聯多光譜目標檢測識別任務的卷積網絡層,當損失函數連續十個輪次穩定下降后,解凍被凍結的其他卷積層進行第二階段訓練;第二階段利用可見光-多光譜跨模態聯合訓練方法,同時訓練兩個卷積神經網絡模型,直至聯合損失函數收斂,提取多光譜圖像的空譜聯合數據特征;可見光-多光譜跨模態聯合訓練采用的損失函數定義為:
l=lC(Ds,ys)+λlA(Ds,Dt)
式中,lC(Ds,ys)表示在可見光有標注數據上的目標檢測識別損失,Ds,ys分別表示訓練數據和先驗標簽,lA(Ds,Dt)表示模態聯合訓練時可見光-多光譜模型的特征一致性損失,Dt表示少量的多光譜圖像數據,l表示總損失,λ表示權衡可見光-多光譜兩部分網絡模型的權重參數;
所述步驟S2包括以下子步驟:
S21:通過多尺度池化操作匯聚和融合雷達圖像空間多尺度特征塊之間特征,該過程描述為:
式中,XPA表示pyramid-aware特征圖,Xn表示尺度為n的金字塔池化特征圖;patchn(i,j)表示原始特征圖X1中左上角坐標為(i,j)、尺寸為n×n的圖像patch;采用步長為1的最大池化操作,得到一系列不同尺度的特征圖并形成特征金字塔,池化后特征圖每個像素包含以該像素為中心的patch區域特征信息;使得多尺度patches之間相關矩陣運算仍然轉變為和之前一樣的矩陣元素間的相關運算,保持多尺度特征圖尺寸不變;利用卷積層對空間-通道聯合特征進行重編碼和向量化,捕捉不同尺度目標所在圖像不同區域、不同通道特征之間的非局部關聯關系,實現不同尺度空間-通道特征知識的互補,提高信息的完備性,并使得抽象出的目標特征具有尺度、通道魯棒性;
S22:采用視覺問答機制構建目標注意力機制,即
Query:θ(X)vec=vec(XWθ)
Value:g(XNP)vec=vec(XNPWg)
其中,θ(·),g(·)是對輸入特征的可學習映射,vec(·)表示向量化的多尺度特征,X表示輸入特征圖,W表示神經網絡的可學習權重;
構建非局部特征關聯,使得神經網絡模型學習到目標的空間長距離依賴關系:
采用泰勒級數展開近似對非局部特征關聯建模過程進行優化,即:
式中,P表示泰勒展開的最高階次;f(p)θ表示f(.)對vec(XWθ)的p階偏導數;表示f(.)對的p階偏導數;由于兩項的自變量相同,并且初始參數被設置為0,因此實際上它們能夠被合并,當P確定時,相似度函數f(.)有閉式解令:
采用點積形式,將注意力模塊的輸出表示為:
式中,兩個NC×NC維矩陣的相關運算簡化為兩個NC×P維矩陣的相關運算,使得捕捉長距離依賴特征的效率得到優化,從而提取到復雜海雜波場景下目標的多尺度非局部關聯特征,其中P<<NC;
所述步驟S3包括:
S31:將經過S1、S2設計的訓練得到的多光譜圖像特征提取網絡作為教師網絡,在教師網絡的輸出特征圖中對物體所在區域提取物體全局特征,共有76層卷積層,下采樣32倍,并將全局特征包括空間特征和光譜特征疊加至特征圖中物體的關鍵目標位置進行特征增強;然后將增強后的特征圖作為學生網絡的回歸目標加入損失函數進行優化;
S32:在全局特征疊加部分,根據所訓練教師網絡用來提供知識蒸餾監督信息;教師網絡使用FCOS模型結構,經過骨干網絡和特征金字塔結構后,得到5級下采樣倍率stride分別為8,16,32,64,128的特征圖,這些特征圖用于預測目標位置坐標、邊界框尺寸以及目標類別;對于任一經過預處理后輸入到神經網絡的圖像I,經過骨干網絡和特征金字塔后的特征圖分別為Fi(i=1,2,3,…,5)=I/stridei(i=1,2,3,…,5),每個輸出特征圖Fi的通道數為position+class,其中position表示以下幾個參數的總數量,即:目標的中心點(x,y)的兩個坐標參數、目標邊界框的寬w和高h參數;需要說明的是,中心點(x,y)和寬w和高h在此處解碼為當前網格點到目標邊界框的距離Fitblr,class表示目標的類別Ficlass;最終輸出的特征圖表示為Fi=[Fitblr,Ficlass];其維度為C×Wi×Hi,其中Wi×Hi為物體框在特征圖上對應的寬與高,C=position+class為特征圖的通道數,i為輸入圖片中的目標的索引;
S33:在知識蒸餾部分,為了將教師網絡增強后的特征遷移至學生網絡,在訓練學生網絡時將教師網絡的參數被固定,圖片分別被輸入教師網絡和學生網絡,經過教師網絡得到的特征圖經過學生網絡得到的特征圖分別為將教師網絡的增強后的特征圖作為學生網絡特征圖的訓練目,均方誤差最小化作為訓練目標;由于和物體識別任務不同,目標檢測任務還存在許多背景區域,在進行知識蒸餾時只對存在目標潛在區域的部分進行蒸餾,具體通過對各層特征圖Fi乘上掩碼矩陣Mi∈RW×Hi實現;目標置信度大于0.5的位置值為1,否則值根據中心度量規則進行衰減至0,即
式中,Ktl,br為正樣本區域的點集合,越接近目標中心則Mi的值越大,說明神經網絡回歸預測的質量越好;因此知識蒸餾損失函數表示為
式中,表示焦點交叉熵損失函數;
S34:訓練模型并實現基于空譜聯合數據的本征知識蒸餾,輸出高質量多光譜圖像特征,知識蒸餾過程首先訓練好教師網絡,而后對教師網絡的輸出預測使用加入溫度T變量的Softmax函數:
其中xi表示目標類別,當T數值等于1時,為標準的Softmax函數;選取數值較高的Thigh通過教師網絡產生Soft-target,即教師網絡模型經過Softmax層輸出的類別概率,每一類別都分配了概率,正樣本的概率最高,而后使用Soft-target和Thigh、Hard-target和T=1作為Loss,同時訓練學生網絡,其中Hard-target指原始數據標注的類別標簽,正樣本為1,其余負樣本為0,最后設置T=1,在學生網絡上進行微調;經過知識蒸餾訓練后的學生網絡性能高于單獨訓練得到的學生網絡,所得到的學生網絡作為目標檢測算法的基礎網絡,結合目標檢測算法后續結構化網絡和輸出頭,輸出的參數包含目標的位置信息、類別概率以及置信度概率,其中位置信息包含目標的中心點坐標和長寬信息,將能夠在推理預測階段使用相同參數量和計算量實現更高性能的多光譜圖像目標檢測識別;
S35:將經過知識蒸餾訓練好學生網絡進行封裝,移植到嵌入式TX2設備上,輸入待預測的多光譜小目標圖像,進行目標檢測識別并輸出可視化結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110798886.9/1.html,轉載請聲明來源鉆瓜專利網。





