[發明專利]一種視頻人群計數系統及方法在審
| 申請號: | 202010555547.3 | 申請日: | 2020-06-17 |
| 公開(公告)號: | CN111860162A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 吳祺堯;張重陽 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 劉翠 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 人群 計數 系統 方法 | ||
本發明公開了一種視頻人群計數系統及方法,其中:前端編碼器對給定視頻序列中的一幀圖像進行特征提取;共同監督模塊利用視頻序列中前續幀與待測幀之間的相關特征抑制場景中固定背景的干擾;空間注意力模塊利用淺層結構特征,選擇注意力區域,引導系統區分前景人群和背景干擾;多尺度自我監督模塊利用深層語義特征,通過多分支結構提取圖像中人群的不同尺度特征,并通過自注意力機制對上下文特征信息進行自適應整合,自主選取最合適的尺度分支特征;后端解碼器,將上述三個模塊提取的特征融合并輸出預測人群密度圖,進而計算出待測視頻幀中所含人數。本發明根據視頻序列對包含的每一幀圖像進行人群數量估計,實現針對視頻序列的密集人群計數。
技術領域
本發明涉及監控視頻下的密集人群計數技術領域,具體地,涉及一種視頻人群計數系統及方法。
背景技術
密集人群計數和人群密度估計在計算機視覺中具有重要的意義,因為它在包括物理安全、公共空間管理和公共場所建筑設計在內的應用中發揮著舉足輕重的作用。密集人群計數問題旨在估計一張圖片指定目標區域(region of interest,ROI)中人的數量。近年來已經有很多類方法應用至密集人群計數問題。最初,研究人員提出基于檢測的方法,但檢測器在那些具有劇烈場景、尺度變換以及嚴重的遮擋現象的圖片時性能較差。所以,基于回歸任務的方法成為了研究的主流。回歸任務的目標是學習一個函數來表征全局人群特征。在測試時,將輸入圖片通過學習的函數映射到一個具體的計數值。具體地,設定目標是估計輸入圖像的人群密度圖,密度圖中的每個像素值代表了輸入圖像對應位置的人群密度,進而通過求和運算來得到最終的人群計數值。一般地,任務給定的訓練數據包含兩部分:輸入圖像以及圖像中所有出現的人頭二維坐標值。
在密集人群計數研究中,一些早期的回歸方法使用了人為構造的特征,這類型的方法僅針對特定的數據集或者場景,普適性以及魯棒性極其不好。2015年來,隨著深度卷積神經網絡(deep CNN)的迅猛發展,人們更加青睞于構造一個精心設計的神經網絡結構來使網絡自行學習圖片特征。這類型的方法易于移植,且學習到的深度特征遠好于手工設計的特征。Zhang et al.設計了含有不同感受野多支路CNN(MCNN),通過融合各支學習的多尺度特征來提高密度圖(density map)尺度感知能力。相似地,借鑒圖片金字塔的想法,ScalePyramid Network(SPN)將輸入圖片分為多尺度輸入網絡來使網絡學習到多分辨率的特征。2017年,Vishwanath et al.在MCNN的基礎上增加了多任務學習的方法,使其網絡可以同時學習人群計數分類任務以及密度估計任務,并將計數分類任務設定為輔助任務來幫助提升密度估計的性能。而Switch CNN則在MCNN的基礎上設計了三個不同分辨率的獨立回歸網絡,并通過前置一個CNN分類器來判斷輸入圖像的人群尺度屬于哪一回歸支路,進而保證網絡能最大程度學習到多個尺度的獨立特征。最近,Li et al.使用VGG16作為骨干(backbone)網絡,通過空洞卷積網絡以及編碼-解碼(encoder-decoder)模型建立了叫做CSRNet的深度神經網絡,在密集人群計數的多個數據集上達到了極好的效果。這些網絡都證明了引入新的深層結構有利于學習更健壯的特征,從而提高計數性能。Liu et al.將多尺度上下文信息直接整合到端到端可訓練的人群計數串聯神經網絡中,試圖使構造的網絡學習基于圖像像素點的周邊信息來提取人群邊緣特征,進而更好地區分前后景信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010555547.3/2.html,轉載請聲明來源鉆瓜專利網。





