[發(fā)明專(zhuān)利]用編碼向量的行人圖像檢測(cè)自適應(yīng)非極大值抑制處理方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910936327.2 | 申請(qǐng)日: | 2019-09-29 |
| 公開(kāi)(公告)號(hào): | CN110909591B | 公開(kāi)(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計(jì))人: | 朱建科;張加良;楊雨 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浙江大學(xué) |
| 主分類(lèi)號(hào): | G06V40/10 | 分類(lèi)號(hào): | G06V40/10;G06V10/46;G06V10/774;G06K9/62 |
| 代理公司: | 杭州求是專(zhuān)利事務(wù)所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 編碼 向量 行人 圖像 檢測(cè) 自適應(yīng) 極大值 抑制 處理 方法 | ||
1.一種用編碼向量的行人圖像檢測(cè)自適應(yīng)非極大值抑制處理方法,其特征在于:
1)行人圖像進(jìn)行特征提取,獲得多幅特征圖,特征圖中包含有身份信息和密度信息,進(jìn)而通過(guò)網(wǎng)絡(luò)模型處理獲得候選檢測(cè)框;
2)針對(duì)所有候選檢測(cè)框利用多幅特征圖采用非極大值抑制算法進(jìn)行迭代處理,優(yōu)化獲得行人目標(biāo)的檢測(cè)框作為檢測(cè)結(jié)果;
所述步驟1)具體分為兩個(gè)階段:
在模型訓(xùn)練階段:
1.1)對(duì)輸入的行人圖像采用特征提取模塊后進(jìn)行特征提取得到特征圖φdet;
1.2)輸入的行人圖像上存在真實(shí)矩形框,真實(shí)值為真實(shí)矩形框中點(diǎn)的坐標(biāo)(xk,yk);特征圖φdet的大小為輸入的行人圖像的1/4,對(duì)于輸入行人圖像上的第k個(gè)真實(shí)值(xk,yk),該真實(shí)值(xk,yk)在特征圖φdet中位于坐標(biāo)處,取特征圖φdet中位于特征提取后的真實(shí)值坐標(biāo)附近的四個(gè)整數(shù)位置像素點(diǎn)坐標(biāo)作為四個(gè)正樣本;
1.3)特征圖φdet分別連接到四個(gè)次級(jí)特征處理模塊進(jìn)行處理,獲得中心點(diǎn)特征圖、尺度特征圖、偏移量特征圖和身份-密度特征圖,每個(gè)次級(jí)特征處理模塊均由兩個(gè)卷積層依次連接構(gòu)成;
中心點(diǎn)特征圖、尺度特征圖、偏移量特征圖和身份-密度特征圖上的每個(gè)像素點(diǎn)代表對(duì)應(yīng)一個(gè)檢測(cè)框,四種特征圖分別代表對(duì)應(yīng)不同的檢測(cè)框?qū)傩裕褐行狞c(diǎn)特征圖上的每個(gè)像素點(diǎn)表示特征圖φdet上對(duì)應(yīng)的像素點(diǎn)為檢測(cè)框的中心的置信度,尺度特征圖上的每個(gè)像素點(diǎn)代表了以特征圖φdet上對(duì)應(yīng)相同位置的像素點(diǎn)為中心所建立的檢測(cè)框的長(zhǎng)和寬,偏移量特征圖上的每個(gè)像素點(diǎn)代表了特征圖φdet上對(duì)應(yīng)像素點(diǎn)的坐標(biāo)相對(duì)于原始輸入圖片上的坐標(biāo)的偏移量;身份-密度特征圖上的每個(gè)像素點(diǎn)對(duì)應(yīng)建立包含身份信息及密度信息的編碼向量;
1.4)利用損失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練;
在模型測(cè)試階段:
2.1)對(duì)輸入的行人圖像通過(guò)訓(xùn)練好的檢測(cè)模型得到特征圖φdet進(jìn)而得到四張與φdet同等大小的中心點(diǎn)特征圖、尺度特征圖、偏移量特征圖,以及身份-密度特征圖;
2.2)根據(jù)中心點(diǎn)特征圖上每一個(gè)像素點(diǎn)代表一個(gè)檢測(cè)框,每個(gè)點(diǎn)的值表示該點(diǎn)為檢測(cè)框中心的置信度,對(duì)置信度過(guò)低的檢測(cè)框進(jìn)行過(guò)濾,獲得所有候選檢測(cè)框;
針對(duì)每個(gè)檢測(cè)框,建立一種長(zhǎng)度為m的編碼向量e,編碼向量e起點(diǎn)為原點(diǎn),編碼向量e的長(zhǎng)度表示密度信息,編碼向量e的末端終點(diǎn)的坐標(biāo)表示身份信息;并且在網(wǎng)絡(luò)模型優(yōu)化訓(xùn)練時(shí),建立和利用以下編碼向量e的損失函數(shù)進(jìn)行訓(xùn)練:
1)先建立編碼向量e中密度信息的損失函數(shù),通過(guò)最小化編碼向量e中密度信息與密度真實(shí)值之間的均方誤差進(jìn)行表示,密度真實(shí)值是指該真實(shí)矩形框與其他真實(shí)矩形框的最大重疊度:
其中,N表示真實(shí)矩形框的數(shù)量,Np表示每個(gè)真實(shí)矩形框的正樣本數(shù)量,Np=4,ek,i表示第k個(gè)真實(shí)矩形框第i個(gè)正樣本的編碼向量,||ek,i||2表示L2范數(shù),dk為真實(shí)矩形框k的密度真實(shí)值;
2)采用以下公式來(lái)表示編碼向量e中身份信息的損失函數(shù),分為拉pull和推push兩部分:
其中,Lpull表示每個(gè)真實(shí)矩形框與對(duì)應(yīng)的四個(gè)正樣本距離的子損失函數(shù),Lpush表示每個(gè)檢測(cè)框與其他檢測(cè)框距離的子損失函數(shù),表示編碼向量ek,i對(duì)應(yīng)的單位向量,Δ表示判斷兩個(gè)檢測(cè)框是否重合的閾值,ek表示第k個(gè)真實(shí)矩形框四個(gè)正樣本編碼向量的均值,表示編碼向量ek對(duì)應(yīng)的單位向量,表示第j個(gè)檢測(cè)框編碼向量對(duì)應(yīng)的單位向量;
3)編碼向量e的損失函數(shù)LID表示為:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子損失函數(shù)Ldensity所占的權(quán)重比例;
最后將編碼向量e的損失函數(shù)LID放入網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行訓(xùn)練得到身份-密度特征圖ID-Map;
所述步驟2)具體為:
將候選檢測(cè)框全部放入集合作為所有初始的檢測(cè)框的集合,同時(shí)建立一個(gè)空集作為檢測(cè)框的篩選結(jié)果集合,當(dāng)集合不等于空集時(shí),執(zhí)行以下循環(huán):
2.1)從集合中選取置信度最高對(duì)應(yīng)的檢測(cè)框,記為當(dāng)前最優(yōu)檢測(cè)框?qū)?dāng)前最優(yōu)檢測(cè)框從集合中轉(zhuǎn)移到集合中;
2.2)計(jì)算集合和剩余的每個(gè)檢測(cè)框bi與當(dāng)前最優(yōu)檢測(cè)框的距離值若δt為預(yù)設(shè)的編碼向量距離閾值,則取自適應(yīng)重疊度閾值為當(dāng)前最優(yōu)檢測(cè)框的編碼向量e中的密度信息max()表示取兩者中的較大者,否則取自適應(yīng)重疊度閾值Nt為固定預(yù)設(shè)的非極大值抑制值;
2.3)最后比較每個(gè)檢測(cè)框bi與當(dāng)前最優(yōu)檢測(cè)框的重疊度與自適應(yīng)重疊度閾值之間大小,若重疊度大于自適應(yīng)重疊度閾值則將檢測(cè)框bi從集合中刪去,否則保留檢測(cè)框bi;
2.4)以最后獲得篩選結(jié)果集合中的檢測(cè)框作為行人圖像中的行人檢測(cè)結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種用編碼向量的行人圖像檢測(cè)自適應(yīng)非極大值抑制處理方法,其特征在于:所述步驟1.3)中,身份-密度特征圖的次級(jí)特征處理模塊是在特征提取模塊之后連接一個(gè)有256個(gè)通道的3×3卷積核的卷積層,再連接一個(gè)有256個(gè)通道的1×1卷積核的卷積層獲得身份-密度特征圖。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910936327.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類(lèi)別向量的方法和裝置
- 行人畫(huà)像的生成及基于畫(huà)像的行人識(shí)別
- 一種輔助駕駛方法、裝置、車(chē)載終端及車(chē)輛
- 行人跟蹤方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 基于行人重識(shí)別的跨鏡頭的行人檢索方法
- 行人重識(shí)別方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 行人重識(shí)別方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于深度條件隨機(jī)場(chǎng)的行人重識(shí)別方法和系統(tǒng)
- 行人跟蹤的方法、行人跟蹤裝置以及行人跟蹤系統(tǒng)
- 一種實(shí)時(shí)行人檢測(cè)與重識(shí)別方法及裝置
- 一種行人屬性識(shí)別方法、裝置及電子設(shè)備
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





