[發明專利]一種基于視頻的外觀和運動信息同步增強的行人重識別方法有效
| 申請號: | 202010038990.3 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111259786B | 公開(公告)日: | 2022-05-03 |
| 發明(設計)人: | 于慧敏;李殊昭 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 外觀 運動 信息 同步 增強 行人 識別 方法 | ||
本發明公開了一種基于視頻的外觀和運動信息同步增強的行人重識別方法,訓練時通過外觀增強模塊AEM、運動增強模塊MEM兩個模塊分別增強主干網絡中的行人外觀和運動信息。外觀增強模塊AEM利用現有的大規模行人屬性數據集訓練得到的屬性識別模型,為大規模行人視頻數據集提供了屬性偽標簽,通過屬性學習增強外觀及語義信息;運動增強模塊MEM通過利用視頻預測模型預測行人步態信息,增強行人特征提取主干網絡中的具有身份判別力的步態信息特征,提升行人重識別性能。實際應用時僅需保留行人特征提取主干網絡,無需增加網絡復雜度和模型大小,就能夠獲得更高的行人重識別性能。增強后的主干網絡特征在基于視頻的行人重識別任務中獲得了更高的準確率。
技術領域
本發明屬于智能識別技術領域,特別地涉及一種基于視頻的外觀和運動信息同步增強的行人重識別方法。在算法設計和模型訓練部分涉及了深度學習技術。
背景技術
行人重識別的任務是在于攝像機A不存在重疊區域的攝像機B中,對行人目標進行檢索,重新找到在攝像機A中出現的行人目標。作為當前重要的研究方向和研究熱點,行人重識別在智能監控、智慧城市、治安防治和刑偵等領域都有著廣泛的應用,例如跨攝像機的行人跟蹤與行為分析,嫌疑或感興趣人員的圖片檢索與查詢等。
隨著深度學習的迅速發展,越來越多的研究者采用深度神經網絡來解決行人重識別的問題。而當前研究較多并且獲得較高性能的主要集中于基于靜態圖片的行人重識別領域,它基于一張框選并截取出的靜態行人圖片進行特征提取,然后在候選集中進行特征匹配和相似度排序,完成檢索重識別的任務。然而基于靜態圖片的行人重識別有較多局限性。第一,單張靜態圖片對于姿態變化、遮擋等影響因素非常敏感,第二,每個人的行走特性和步態都具有其身份獨特性,使用單張靜態圖片無法捕捉到這種具有身份識別特性的步態特征。因此,越來越多的人開始將關注點放到基于視頻的行人重識別方向中來。
利用視頻數據作為研究對象主要有以下幾個優勢。第一,視頻數據更易從視頻監控中獲取,也更符合實際應用的場景;第二,視頻數據中的多張圖片能夠較好的應對姿態變化、遮擋、光照等帶來的影響;最后,視頻中包含豐富的外觀和運動信息,能夠從多個方面提取具有身份判別力的信息,例如行人的行走步態特征。
當前基于視頻的行人重識別算法主要分為兩大類,一類是將視頻看做多張圖片,即基于多圖片的算法,另一類是直接對視頻數據進行處理,即基于視頻的算法。對于基于多圖片的算法,主要利用了注意力模型來完成多張圖片特征融合為整個視頻序列層級特征的過程。利用注意力模型給每張圖片分配一個重要性得分,根據重要性得分將多張圖片進行加權組合,獲得最終的特征。這類方法易于實現、占用時間和內存相對較少,然而卻忽略了視頻數據所能夠提供的最重要的信息,即運動信息。對于基于視頻的算法,很多視頻分析的通用結構都被集成到了行人重識別系統中,例如光流學習,3D卷積神經網絡,RNN等等。盡管這些對于時序特征提取和動作識別都有著較強的能力,但是由于行人重識別數據中僅包含一類運動類別,即行走,此時行走模式和步態中的微小差別如果沒有對網絡的特別設計,則很難很好的進行特征提取。近年來較為流行的步態識別雖然能夠依據步態識別身份,但是其對于輸入數據有著極高的處理要求,如干凈的背景、序列對齊、行人輪廓分割提取等等,這些在復雜的實際監控場景下都難以實現。而針對行人重識別任務中來源于實際監控場景采樣的圖片,由于復雜的背景、行人檢測算法的失誤等因素,幾乎難以將現有的步態識別算法直接應用到行人重識別任務中去。
此外,現有的特征提取網絡,無論是基于多張圖片還是視頻序列,都能夠較好的完成行人外觀信息的提取,然而這些信息依然缺少明確的語義特性,同時一些重要的線索也可能因此而被忽略。而人體屬性學習在近年來已被證明對于行人重識別任務中外觀信息和中層語義信息的提取有著極大的幫助。然而大部分相關工作都僅基于單靜態圖片而非視頻數據。主要的原因有以下兩個方面,第一,有些屬性由于遮擋和姿態的變化可能僅出現在特定幀中,因此如何定義視頻序列級別的屬性標簽較為困難;第二,現在還沒有大規模的基于視頻的行人數據集包含屬性標簽,利用人工標注將會耗費巨大的人力財力。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038990.3/2.html,轉載請聲明來源鉆瓜專利網。





