[發明專利]基于Transformer時空建模的視頻行人重識別方法有效
| 申請號: | 202110798721.1 | 申請日: | 2021-07-15 |
| 公開(公告)號: | CN113627266B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 種衍文;陳夢成;潘少明 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/764;G06V10/80;G06V10/82;G06N3/047;G06N3/048;G06N3/084 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 transformer 時空 建模 視頻 行人 識別 方法 | ||
本發明涉及一種基于Transformer時空建模的視頻行人重識別方法。首先利用圖像級特征網絡ResNet50提取到幀級特征后,通過位置編碼層給幀級特征加上位置信息以最大程度地保證視頻幀的序列信息,然后將重編碼后的特征經過Transformer網絡完成時空建模,進而提取到更具判別性的時空特征。本發明通過給幀級特征加上位置編碼,可充分利用視頻片段的時序信息;利用Transformer結構將輸入特征映射到三個空間進行特征融合,從而提取到更加魯棒的時空特征,提高了網絡的性能;提出了一種端到端的網絡模型,實現了輸入到模型到輸出的應用過程,降低了基于視頻的行人重識別網絡模型的訓練難度。
技術領域
本發明屬于行人重識別領域,特別是涉及一種基于Transformer時空建模的視頻行人重識別方法。
背景技術
行人重識別作為計算機視覺領域的熱點問題,其主要任務是利用圖像處理的相關技術完成對不同相機下圖像或視頻數據中特定行人的檢索。近些年來,由于公共安全需求和監控網絡需求的日益提高,對于行人重識別的關注及要求也隨之增長。然而,在以監控網絡為主的實際應用場景中,當前的主流方法還是人工分析視頻數據流以提取目標信息,這種方法在面對海量數據集時會存在效率和準確率上的局限性。由此,對行人重識別技術的研究已成為一個亟待解決的問題。
實際上,行人重識別領域的工作已在靜止圖像上進行了廣泛而深入的探索,但視頻數據卻未收獲到同等的關注。相比于靜止圖像而言,視頻數據可以采用更自然的方式進行重識別任務,也更符合實際應用場景。同時,視頻數據包含了更豐富的運動信息,這對行人重識別的任務也是極有幫助的。然而,基于視頻的行人重識別也存在著一些頗具挑戰性的問題,例如,難以處理任意長度或不同幀速率的視頻序列,難以在待識別的序列中精準構建外觀模型,還有最關鍵的是難以提出一種有效的方法完成幀序列特征的聚合以提取運動信息。
視頻行人重識別任務通常是給定一個人的查詢視頻,在系統數據庫中自動化搜索識別目標人物的相關視頻。在當前基于深度學習的視頻行人重識別方法中,主要有三個模塊會對方法效果具有決定性的影響,即圖像級特征提取器、用于聚合圖像級特征的時序建模模塊以及用于訓練網絡的損失函數。特征提取和損失函數已在基于圖像的行人重識別中取得了極大地進展,因此,如何設計聚合圖像級特征的時序建模模塊以完成運動信息的學習,就成了視頻任務的當務之急。在時序建模部分的先前工作中,已經嘗試了池化、循環神經網絡、時序注意力網絡等建模方式,結果顯示丟失了時序信息的池化方式反而在時序建模任務中表現得最突出,由此可知,當前的主流時序建模方式未能實現從視頻行人重識別中有效提取運動信息,我們需要針對性地提出一種更為魯棒的時序建模方法。
綜上所述,作為一種視頻檢索任務,在視頻提供了豐富時序信息的前提下,如何提取圖像級特征并根據其間的關系完成幀級特征聚合以實現對目標運動信息的建模即成為基于視頻的行人重識別的關鍵。
發明內容
本發明針對現有技術的不足,提出了一種基于Transformer時空建模的視頻行人重識別方法。首先利用圖像級特征網絡ResNet50提取到幀級特征后,通過位置編碼層給幀級特征加上位置信息以最大程度地保證視頻幀的序列信息,然后將重編碼后的特征經過Transformer網絡完成時空建模,進而提取到更具判別性的時空特征。
為了達到上述目的,本發明提供的技術方案是一種基于Transformer時空建模的視頻行人重識別方法,包括以下步驟:
步驟1,對行人重識別視頻數據集進行視頻預處理,得到便于訓練的視頻片段;
步驟2,使用ResNet50網絡提取步驟1中預處理后的視頻片段的幀級特征;
步驟3,構建基于Transformer的時空建模網絡,包括位置編碼模塊和Transformer模塊;
步驟3.1,構建位置編碼模塊,用于給步驟2提取的幀級特征加上位置信息,以最大程度地保證視頻幀的序列信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110798721.1/2.html,轉載請聲明來源鉆瓜專利網。
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





