[發(fā)明專利]一種基于多尺度特征金字塔網(wǎng)絡(luò)及密集人群計(jì)數(shù)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110293926.4 | 申請(qǐng)日: | 2021-03-19 |
| 公開(公告)號(hào): | CN113011329A | 公開(公告)日: | 2021-06-22 |
| 發(fā)明(設(shè)計(jì))人: | 雷濤;張棟;孫瑞;王興武;杜曉剛 | 申請(qǐng)(專利權(quán))人: | 陜西科技大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安眾和至成知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 61249 | 代理人: | 張震國 |
| 地址: | 710021*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 尺度 特征 金字塔 網(wǎng)絡(luò) 密集 人群 計(jì)數(shù) 方法 | ||
本發(fā)明公開了一種基于多尺度特征金字塔網(wǎng)絡(luò)及密集人群計(jì)數(shù)方法,目的在于解決復(fù)雜擁擠場景中密度圖估計(jì)和人群計(jì)數(shù)問題,本發(fā)明利用特征提取模塊對(duì)人群圖像進(jìn)行特征提取;利用特征金字塔融合模塊有效捕獲人群圖像中多尺度上下文信息,進(jìn)一步獲取更好的特征表達(dá);利用特征注意力感知模塊聚焦人群圖像中高密度位置,降低背景干擾;使用雙線性差值將圖像恢復(fù)到原始尺寸;輸出預(yù)測密度圖并統(tǒng)計(jì)人頭數(shù)量,有效解決了密集場景中由于人頭尺度變化較大、人群遮擋嚴(yán)重、光照條件差造成人群計(jì)數(shù)困難的問題,并且提高了模型對(duì)于噪聲的魯棒性,能夠?qū)崿F(xiàn)人群精確計(jì)數(shù)以及密度圖的高質(zhì)量預(yù)測,由于本發(fā)明利用分組卷積模塊,因此具有較快的推理速度。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理領(lǐng)域,具體涉及一種基于多尺度特征金字塔網(wǎng)絡(luò)及密集人群計(jì)數(shù)方法。
背景技術(shù)
密集人群分析在視頻監(jiān)控、交通疏導(dǎo)、公共安全防控以及智能環(huán)境設(shè)計(jì)等方面具有重要的應(yīng)用價(jià)值。常見的密集人群分析任務(wù)主要包括人群計(jì)數(shù)、人群圖像分割、人群檢測及跟蹤、人群行為識(shí)別和定位等方面。其中,人群計(jì)數(shù)是密集人群分析領(lǐng)域的一項(xiàng)基本任務(wù)。但是現(xiàn)實(shí)場景中,仍然存在因?yàn)榕臄z視角及距離不同而導(dǎo)致圖像中人頭尺度變化較大的問題;此外擁擠場景中也存在背景變化復(fù)雜、人體嚴(yán)重遮擋等問題。這些問題對(duì)當(dāng)前的人群計(jì)數(shù)模型的提出具有很大的挑戰(zhàn)。當(dāng)前的計(jì)數(shù)模型主要分為基于回歸、基于檢測以及基于密度圖估計(jì)。
傳統(tǒng)人群計(jì)數(shù)問題主要涉及基于回歸和基于檢測的方法。基于檢測的方法是通過動(dòng)態(tài)框檢測器檢測行人頭部或外觀形態(tài)的方式來計(jì)算人數(shù)。這些方法在稀疏場景下卓有成效,然而在人體嚴(yán)重遮擋以及背景復(fù)雜的場景下表現(xiàn)不佳。基于回歸的方法是通過學(xué)習(xí)圖像淺層特征與人群數(shù)量之間的映射關(guān)系,構(gòu)造回歸模型進(jìn)行計(jì)數(shù),如高斯混合回歸、線性回歸等。盡管這些基于回歸的方法可以處理復(fù)雜場景下的密集人群計(jì)數(shù)問題,但是依賴于圖像中的底層信息,忽略了圖像空間位置的相關(guān)性,導(dǎo)致模型泛化能力和準(zhǔn)確性較差。
隨著社會(huì)經(jīng)濟(jì)和城市化的發(fā)展,人群聚集性活動(dòng)日益頻繁,單一的人群計(jì)數(shù)不能滿足我們應(yīng)對(duì)擁擠復(fù)雜場景問題的需求。因?yàn)橛?jì)數(shù)僅側(cè)重于整體情況的表示,密度圖不僅能通過對(duì)整個(gè)圖像的積分來預(yù)估人數(shù)而且能精細(xì)化局部位置的分布。因此,人群計(jì)數(shù)任務(wù)已經(jīng)從簡單的計(jì)數(shù)發(fā)展到能夠代表復(fù)雜人群分布特征的密度圖預(yù)測。由于傳統(tǒng)基于密度圖估計(jì)的方法依賴于手動(dòng)提取的低級(jí)特征信息,對(duì)于具有高密度分布的場景準(zhǔn)確性較低。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺中的飛速發(fā)展,全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional NeuralNetwork,F(xiàn)CN)被廣泛應(yīng)用于像素級(jí)分類,因此,這一類模型也被拓展到密集人群分析領(lǐng)域。基于全卷積神經(jīng)網(wǎng)絡(luò)的人群密度圖估計(jì)的方法可大致分為多列及單列模型。針對(duì)密集人群計(jì)數(shù),相關(guān)技術(shù)公開了一種面向密集人群計(jì)數(shù)的多列卷積神經(jīng)網(wǎng)絡(luò)(Multi-columnConvolutional Neural Network,MCNN),該網(wǎng)絡(luò)利用三列不同大小的卷積核(3×3,5×5,7×7)來提取圖像中多尺度人頭特征信息,然后將多尺度特征圖直接進(jìn)行拼接融合。最后,使用1×1卷積核進(jìn)行解碼得到預(yù)測密度圖。由于該網(wǎng)絡(luò)使用不同尺度的卷積核以獲得豐富的感受野,進(jìn)而實(shí)現(xiàn)了更為精確的人群密度估計(jì)。然而當(dāng)網(wǎng)絡(luò)較深時(shí),臃腫的多列網(wǎng)絡(luò)結(jié)構(gòu)會(huì)導(dǎo)致參數(shù)和計(jì)算量的增加,使模型的復(fù)雜度變高。另外,將多尺度信息直接融合而不加甄別會(huì)導(dǎo)致信息冗余,模型對(duì)于背景噪聲魯棒性較差。
單列結(jié)構(gòu)通常具有更深的網(wǎng)絡(luò)分層,這種結(jié)構(gòu)在不增加網(wǎng)絡(luò)復(fù)雜性的同時(shí)可以提升特征表達(dá)能力。為了更有效的提取圖像中的多尺度信息,研究者們提出利用級(jí)聯(lián)小尺寸膨脹卷積來擴(kuò)大感受野,相關(guān)技術(shù)還公開了一種空間全卷積網(wǎng)絡(luò)(Spatial FullyConvolutional Network,SFCN),該網(wǎng)絡(luò)使用膨脹率為2的膨脹卷積和空間編碼器來整合全局上下文信息,膨脹卷積在不增加參數(shù)的情況下可以擴(kuò)大感受野以提取多尺度特征,空間編碼器考慮圖像中局部位置之間的相關(guān)性以獲得更好的特征表達(dá)。該方法能有效提升密度圖預(yù)測任務(wù)的精度,然而該網(wǎng)絡(luò)僅使用常規(guī)的卷積核進(jìn)行卷積,因此不能更有效提取到豐富的多尺度特征,而沒有考慮通道與空間之間的相互依賴性導(dǎo)致模型抗干擾能力差。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于陜西科技大學(xué),未經(jīng)陜西科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110293926.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種風(fēng)電場仿真系統(tǒng)及其仿真方法
- 下一篇:一種中藥香
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





