[發明專利]視頻行人重識別的方法在審
| 申請號: | 202111483319.0 | 申請日: | 2021-12-07 |
| 公開(公告)號: | CN114202739A | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 劉雪虎;王一帆;盧湖川 | 申請(專利權)人: | 大連理工大學寧波研究院;大連維視科技有限公司 |
| 主分類號: | G06V20/52 | 分類號: | G06V20/52;G06V20/40;G06N3/04;G06K9/62;G06V10/774;G06V10/80 |
| 代理公司: | 遼寧鴻文知識產權代理有限公司 21102 | 代理人: | 苗青 |
| 地址: | 315016 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視頻 行人 識別 方法 | ||
1.一種視頻行人重識別的方法,其特征在于,步驟如下:
步驟1:數據采樣;
對給定的行人視頻進行抽幀采樣得到序列圖像,把每個行人視頻等分成8個片段,從每個片段中抽取一張圖片,并由此將一個視頻片段構建成一個序列圖像集;
步驟2:構建批次;
構建按行人編號構建批次,每個批次包含8個不同行人,每個行人有4個不同的序列圖像集,共計32個序列圖像集;
步驟3:歸一化處理;
由于不同序列圖像集中圖片的規格和尺寸可能存在不同,對批次內每一個序列集中的每一張圖片做數據的歸一化處理;
步驟4:數據增廣;
使用數據增廣方法對批次內序列圖片按照多種規則進行變化,其中包括圖片隨機裁剪、圖片隨機水平翻轉、圖片隨機遮擋;
步驟5:構建網絡;
構建基于Transformer的三叉視角神經網絡,包括三叉視角特征提取器、自注意力池化模塊、基于Transformer的視角特征優化器和基于Transformer的多視角特征融合模塊;三叉視角特征提取器以ResNet-50為骨架,然后使用自注意力池化模塊將原始時空特征映射到空間視角和時間視角;接下來,使用視角特征優化器挖掘視角內部的關系依賴并對三種視角特征進行優化;最后,多視角特征融合模塊在時空特征的基礎上,融合時間和空間特征得到最終的行人視頻編碼特征;
(1)三叉視角特征提取器
使用ResNet-50提取視頻序列中每一幀的空間特征;ResNet-50神經網絡分為5個網絡模塊,每個網絡塊包含若干個殘差神經網絡;使用前4個網絡模塊作為時間、空間、時空三視角特征提取網絡的共享層;使用3個不共享的第5個網絡模塊來做三視角的特征分離;由此,提取到三個不同的視頻特征表示,分別代表時間、空間和時空視角;
(2)自注意力池化模塊
引入自注意力池化模塊來變換原始時空特征到空間視角域和時間視角域;
對于變換時空特征到空間視角域,給定一個視頻的原始的三維時空特征Xs∈RT×HW×C,這里T表示一個序列圖像幀的個數,H,W分別表示特征的高和寬,C表示特征通道的個數;首先,使用一個線性映射層對時空特征中每一個空間特征Xsi∈RT×C,i∈[1,H×W]進行編碼得到Fi∈RT×C,
其中,W表示線性變換的網絡參數;然后,通過矩陣計算來生成自注意力矩陣Mi∈RT×T,
Mi=FiFiT (2)
這里,(·)T表示轉置操作;之后,將Mi在時間維度求和,并使用softmax激活函數得到每一空間位置特征在不同時序上的注意力值,
之后,空間特征和它對應的時序注意力值相乘得到自注意力池化后的特征,因此通過自注意力特征池化將時空特征變換到空間視角域中,得到空間特征Fs={g1,…,gi,…,gH×W},i∈[1,H×W];同樣地,采用相同的機制,將時空特征變換到時間視角域中,得到時序特征Ft={g1,…,gi,…,gT},i∈[1,T];
(3)基于Transformer的視角特征優化器
使用Transformer挖掘各自視角域中的空間依賴關系、時間依賴關系和時空依賴關系;
在時間視角域中,從三叉視角特征提取器中提取到的時間特征表示Ft∈RT×C傳入到Transformer神經網絡中;Transformer結構包含多頭注意力層、前向編碼網絡、層歸一化和殘差連接;首先,將一個可學習的位置編碼特征和時空特征相加傳入到多頭注意力層;在多頭注意力層的每個頭中,時間特征通過三個不同的線性變換層生成Q,K,V三個編碼,其中Q,K,V∈RT×d,d=C/Nh;Nh是多頭注意力層中頭的數量,設置為12;之后,每個頭中的自注意力矩陣被計算,并乘以V獲得單頭特征,
多個頭中的特征A1,…,ANh拼接在一起作為多頭自注意力層的輸出;之后,前向網絡,歸一化層和殘差連接被使用來進一步編碼,以此得到優化后的時間特征表示;
Ft=LayerNorm(Ft+MultiHead(Ft)) (7)
Ft=W2σ(W1Ft) (8)
式中,LayerNorm表示歸一化層;MultiHead表示上述的多頭注意力層;W1,W2表示兩個全連接神經網絡,σ表示ReLU激活函數;同樣地,空間特征和時空特征也使用這樣的Transformer結構,實現視角域內的依賴關系挖掘,并通過挖掘到的依賴關系來實現特征的優化學習;
(4)基于Transformer的多視角特征融合模塊
在時空特征的基礎上,融合時間特征和空間特征得到最終的行人視頻表示;該多視角特征融合模塊基于Transformer結構,增添跨視角注意力層以實現多視角特征的信息融合;
多視角特征融合模塊包含多頭跨視角注意力層、前向網絡、歸一化層和殘差連接;對于得到的時間特征Ft、空間特征Fs和時空特征Fst,首先,使用6個線性變化層生成6個特征Qsts,Qstt,Ks,Kt,Vs,Vt,其中,Qsts,Qstt∈RTHW×d,Ks,Vs∈RHW×d,Kt,Vt∈RT×d,d=C/Nh;Nh是多頭注意力層中頭的個數;而跨視角特征融合表示為:
Fst=W4σ(W3Fst) (12)
這里W3,W4表示兩個全連接神經網絡,σ表示ReLU激活函數;最終,基于時空特征,融合時間特征和空間特征得到最終的行人視頻表示Fst;之后,使用簡單的時空池化操作得到最終的特征向量,進一步以實現后續的行人實例匹配;
步驟6:網絡訓練;
網絡訓練包括前向特征反饋和后向梯度傳播;將批次化的行人序列集分批次傳入到構建的基于三叉視角的Transformer中,提取到行人視頻編碼特征,然后根據公式(13)和(14)計算圖像級和視頻級的在線實例匹配損失;之后,通過隨機梯度下降法逐批次地更新神經網絡的參數;
式中,Wi表示分類器的參數;
步驟7:實例匹配;
將訓練好的基于三叉視角的Transformer神經網絡參數固定;給定一個待識別的行人視頻,和由多個行人視頻構成的查找集;分別傳入到神經網絡中,提取不同行人視頻的編碼特征;計算待識別特征和查找集中每個行人特征之間的余弦相似度,
并按照余弦相似度排序,查找集中和待識別樣本特征相似度最大的樣本即為待識別行人的目標匹配樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學寧波研究院;大連維視科技有限公司,未經大連理工大學寧波研究院;大連維視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111483319.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電機殼體振動疲勞試驗裝置及試驗方法
- 下一篇:一種脊柱手術路徑轉換裝置





