[發(fā)明專利]基于增強(qiáng)型多尺度感知網(wǎng)絡(luò)的人群計數(shù)方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010475260.X | 申請日: | 2020-05-29 |
| 公開(公告)號: | CN111626237A | 公開(公告)日: | 2020-09-04 |
| 發(fā)明(設(shè)計)人: | 劉才華;段儀濃;李夏華;徐濤 | 申請(專利權(quán))人: | 中國民航大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 天津市鼎和專利商標(biāo)代理有限公司 12101 | 代理人: | 蒙建軍 |
| 地址: | 300300 天*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 增強(qiáng) 尺度 感知 網(wǎng)絡(luò) 人群 計數(shù) 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于增強(qiáng)型多尺度感知網(wǎng)絡(luò)的人群計數(shù)方法及系統(tǒng),屬于圖像處理技術(shù)領(lǐng)域,其特征在于,包括以下步驟:步驟一,對于輸入圖像,使用多列擴(kuò)張卷積構(gòu)成的生成網(wǎng)絡(luò)提取輸入圖像的多尺度特征,并生成密度圖像;步驟二,將輸入圖像與中間生成圖像和標(biāo)簽圖像進(jìn)行拼接,使用判別網(wǎng)絡(luò)對二者的數(shù)據(jù)分布進(jìn)行真假判別;步驟三,由增強(qiáng)模塊對生成網(wǎng)絡(luò)產(chǎn)生的密度圖像提取多尺度細(xì)節(jié)特征,并生成最終密度圖像;步驟四,將生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、增強(qiáng)模塊組合構(gòu)成增強(qiáng)型多尺度感知網(wǎng)絡(luò)模型;步驟五,對所生成密度圖像的像素值進(jìn)行累加,得到人群數(shù)量。本發(fā)明實現(xiàn)了對人群圖像多尺度上下文信息的高質(zhì)量建模,達(dá)到了很好的人群計數(shù)效果。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,具體涉及一種基于增強(qiáng)型多尺度感知網(wǎng)絡(luò)的人群計數(shù)方法及系統(tǒng)。
背景技術(shù)
目前,計算機(jī)視覺應(yīng)用中基于人群計數(shù)的應(yīng)用已經(jīng)成為人工智能領(lǐng)域的一個重要問題。圖像或視頻監(jiān)控資料中包含豐富的人群場景信息,通過卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)人群場景圖像到人群密度圖像的端到端轉(zhuǎn)換,形成對場景中人群數(shù)量信息與分布信息的直觀理解,可以輔助安防和資源分配等實際任務(wù)的實施。
發(fā)明人在實現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在以下缺點和不足:由于人群圖像中包含的行人尺度大小不同,并且存在嚴(yán)重遮擋等現(xiàn)象,現(xiàn)有技術(shù)難以較好的對多尺度特征進(jìn)行建模;此外,現(xiàn)有技術(shù)大多僅使用L2損失函數(shù)對人群圖像到密度圖像的轉(zhuǎn)換進(jìn)行約束,該損失面對圖像中尖銳的邊緣與異常值時會導(dǎo)致平均化的結(jié)果,并且獨立的考慮生成圖像與標(biāo)簽圖像中對應(yīng)像素間的差異,忽略了像素與像素之間的聯(lián)系,這極大地影響了人群計數(shù)任務(wù)的準(zhǔn)確性。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于增強(qiáng)型多尺度感知網(wǎng)絡(luò)的人群計數(shù)方法及系統(tǒng),本發(fā)明實現(xiàn)了對圖像人群數(shù)據(jù)的深度建模,用于加強(qiáng)局部相關(guān)性并創(chuàng)建高質(zhì)量的人群密度圖,其中增強(qiáng)模塊可以進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的規(guī)模魯棒性,從而進(jìn)行準(zhǔn)確而有效的人群計數(shù)。
本發(fā)明的第一目的是提供一種基于增強(qiáng)型多尺度感知網(wǎng)絡(luò)的人群計數(shù)方法,至少包括:
步驟1,對于輸入圖像,使用多列擴(kuò)張卷積構(gòu)成的生成網(wǎng)絡(luò)提取輸入圖像的多尺度特征,并生成密度圖像;
步驟2,將輸入圖像分別與中間生成圖像和標(biāo)簽圖像進(jìn)行拼接,使用判別網(wǎng)絡(luò)對二者的數(shù)據(jù)分布進(jìn)行真假判別;
步驟3,由增強(qiáng)模塊對生成網(wǎng)絡(luò)產(chǎn)生的密度圖像進(jìn)一步提取多尺度細(xì)節(jié)特征并生成最終密度圖像;
步驟4,將生成網(wǎng)絡(luò)、判別網(wǎng)絡(luò)、增強(qiáng)模塊組合構(gòu)成增強(qiáng)型多尺度感知網(wǎng)絡(luò)模型,其中,嵌入式GAN模塊和增強(qiáng)器組合旨在增強(qiáng)像素的局部相關(guān)性以及縮放比例變化的魯棒性,并對增強(qiáng)型多尺度感知網(wǎng)絡(luò)模型的參數(shù)進(jìn)行優(yōu)化;
步驟5,對所生成密度圖像的像素值進(jìn)行累加,得到人群數(shù)量。
進(jìn)一步:步驟1中,使用VGG-16作為生成網(wǎng)絡(luò)的主干,使用預(yù)訓(xùn)練的VGG-16的前十個卷積層,保留了原始VGG-16網(wǎng)絡(luò)的五個池化層中的三個最大池化層,將六個3×3的擴(kuò)張卷積層與ReLU激活層一起用作生成網(wǎng)絡(luò)的back-end。
進(jìn)一步:步驟2中,判別網(wǎng)絡(luò)是一個具有五個卷積層的全卷積網(wǎng)絡(luò),其中除了最后一層以外的每一個卷積層都實現(xiàn)了批量歸一化和LeakyReLU激活函數(shù)。
進(jìn)一步:步驟3中,增強(qiáng)模塊是一種基于空間金字塔池的結(jié)構(gòu),可以融合不同比例和不同子區(qū)域之間的特征細(xì)節(jié)。
進(jìn)一步:步驟4中,所述增強(qiáng)型多尺度感知網(wǎng)絡(luò)模型包括:L1損失函數(shù),用于計算中間生成圖像與標(biāo)簽圖像對應(yīng)像素間的距離絕對值;對抗性損失函數(shù),用于計算中間生成圖像與標(biāo)簽圖像整體數(shù)據(jù)分布間的差異;L2損失函數(shù),用于計算生成圖像與標(biāo)簽圖像對應(yīng)像素間的距離平方和;采用聯(lián)合訓(xùn)練的方式對上述三項損失函數(shù)進(jìn)行優(yōu)化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國民航大學(xué),未經(jīng)中國民航大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010475260.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于智能語音識別技術(shù)的通信會議系統(tǒng)
- 下一篇:
- 同類專利
- 專利分類
G06 計算;推算;計數(shù)
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





