[發明專利]基于殘差收縮結構和非局部注意力的行為檢測方法在審
| 申請號: | 202210401553.2 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114842553A | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 劉娟;黃忠;陶孟元;王穎;張丹妮 | 申請(專利權)人: | 安慶師范大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06K9/62;G06N3/04;G06N3/08;G06V10/764;G06V10/74;G06V10/80;G06V10/82 |
| 代理公司: | 安徽中辰臻遠專利代理事務所(普通合伙) 34175 | 代理人: | 劉朝琴 |
| 地址: | 246000 *** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 收縮 結構 局部 注意力 行為 檢測 方法 | ||
1.基于殘差收縮結構和非局部注意力的行為檢測方法,其特征在于,包括以下步驟:
(1)基于殘差收縮結構的特征提取子網,具體過程如下:
(11)將輸入特征X通過兩次批標準化、ReLU激活函數及卷積得到的特征x作為殘差收縮模塊輸入向量,并經過絕對值和全局均值池化操作將其簡化為一維向量
Xh,w,l,c:xh,w,l,c=GAP(|ReLU(BN(Conv(X)))|),式中,ReLU()表示ReLU激活函數,BN()表示批標準化,GAP()表示全局均值池化,h,w,l,c分別代表特征圖的長、寬、幀長度和通道數;
(12)將簡化后的向量特征Xh,w,l,c分別送入閾值收縮系數計算分支和通道均值特征計算支路,在閾值收縮系數計算分支中,利用兩層全連接層計算Xh,w,l,c的各通道的閾值收縮系數:
αc=δ(FC(FC(xh,w,l,c))),式中,FC()為全連接層,δ()為Sigmoid激活函數,其中αc∈(0,1);
在通道均值特征計算支路中,分別計算各通道特征的平均值:βc=average(|xh,w,l,c|),式中,average()表示求平均值;獲取閾值收縮系數以及特征均值后,各通道特征的收縮閾值τc=αcβc(c∈[1,3]);通過對每個通道計算收縮閾值,可以獲得輸入向量x的收縮閾值向量τ=(τ1,τ2,τ3);
(13)將計算的收縮閾值向量τ對輸入向量x進行軟閾值化:xs=soft(x,τ)=sign(x)max{|x|-τ,0},式中,xs表示軟閾值化后所得特征,|x|<τ時,xs置為零,|x|>τ,xs朝著零的方向進行收縮;軟閾值化獲取特征xs后,與輸入特征X做殘差連接:X′=X+xs;
將n個殘差收縮模塊進行級聯并構建3D-DRSN網絡,通過3D-DRSN網絡抑制處理后的時空特征圖可表示為:E=DRSNn(X),式中,DRSNn()表示n個殘差收縮模塊構成的特征提取子網;
(2)基于逐層空間卷積的時序候選子網,具體過程如下:
(21)利用三個卷積層和一個1×2×2最大池化層將殘差收縮網路獲取的時空特征圖轉化為僅含時序信息的特征圖E′:
E′=Maxpooling(Conv3(Conv2(Conv1(E)))),式中,conv1(·)、conv2(·)、conv3(·)分別代表三個卷積層;
(22)通過逐層空間卷積,獲取到長度的視頻時序特征圖E',然后,在長度的視頻時序特征圖E′上提取時序候選片段:
proposal=Conv1×1×1(E′),式中,Conv1×1×1()表示1×1×1的卷積層,proposal為提取到的時序候選片段;
(3)基于非局部注意力機制的行為分類子網,具體過程如下:
(31)使用Soft-NMS抑制策略替代非極大值抑制:
式中,N表示時序候選子網提取到的時序候選片段個數,M表示當前最高得分的時序邊界框,bi為待處理的第i個時序邊界框,si為bi的時序邊界框置信度得分,γ為邊界框抑制閾值,iou(M,bi)表示時序邊界框M與bi之間交并比:
,式中,Mstart、Mend分別表示最高得分時序邊界框M的開始時間和結束時間,bistart、biend分別表示待處理時序邊界框bi的開始時間和結束時間,LM、分別表示時序邊界框M和時序邊界框bi的時間長度;
(32)將調整后的時序候選片段按照置信度得分進行排序,并選擇得分較高K(K≤N)個時序候選片段作為優質的時序候選片段;
(33)通過Soft-NMS策略獲取K個優質時序候選段后,采用3D ROI pooling將不等長的時序候選段映射到特征圖E的對應位置上:
Pk=ROIPooling(softnms(prposal,k),E),式中,Pk∈R512×1×4×4(k∈[1,K])為
篩選后的時序候選片段特征圖;
(34)獲取優質的時序候選片段特征圖后,首先將不同位置的特征作配對計算:
式中,Wθ、Wφ為權重矩陣;Pik(k∈[1,K])表示特征圖Pk第i(i∈[1,16])個位置特征;表示特征圖Pl第j(j∈[1,16])個位置特征;表示特征圖Pk的第i個位置特征和特征圖Pl的第j個位置的特征的相似度。同時,將特征圖Pk∈512×1×4×4(k∈[1,K])中16個位置的通道特征(512維)進行加權映射形成位置向量:
式中Wg為權重矩陣;
(35)通過特征圖Pk與特征圖Pl相似度以及計算第k個特征圖第i個位置的融合向量Fik:
式中,M表示特征圖Pk的像素總數;
(36)將特征圖Pk第i個位置的融合特征Fik以及原始特征Pik作殘差連接:
式中Wz∈R為權重矩陣。將K個特征所有位置的殘差連接進行級聯并輸入至全連接層得到所有片段的時間邊界位置和行為分類:
式中,分別表示第k個時序候選片段的邊界起止位置;表示第k個時序候選片段被預測為第i類行為的概率;m表示行為類別種類。
(4)CN-R-DRSN網絡優化,具體過程如下:
采用分類和回歸聯合優化策略,利用交叉熵損失函數Lcls(·)預測候選片段中是否包含行為或預測具體的行為類別,并利用平滑的L1損失函數Lreg(·)優化候選邊界框與真實邊界框之間的相對位移:
式中,表示第k個時序候選片段或行為被預測為真實標簽的概率,表示對應的行為的真實標簽(GT),表示為預測第k個時序候選片段的相對偏移量,表示對應坐標變換的真實時間邊界框,坐標變換計算如下:
式中,和分別表示時序候選片段的中心位置和長度,和分別表示GT的中心位置和長度,采用分類和回歸聯合優化策略目標函數為:
式中,Ncls、Nreg表示需要訓練的時序候選片段的數量,在行為分類子網中其數量等于批處理大小,λ為損失平衡因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安慶師范大學,未經安慶師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210401553.2/1.html,轉載請聲明來源鉆瓜專利網。





