[發明專利]用編碼向量的行人圖像檢測自適應非極大值抑制處理方法有效
| 申請號: | 201910936327.2 | 申請日: | 2019-09-29 |
| 公開(公告)號: | CN110909591B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 朱建科;張加良;楊雨 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/46;G06V10/774;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 編碼 向量 行人 圖像 檢測 自適應 極大值 抑制 處理 方法 | ||
1.一種用編碼向量的行人圖像檢測自適應非極大值抑制處理方法,其特征在于:
1)行人圖像進行特征提取,獲得多幅特征圖,特征圖中包含有身份信息和密度信息,進而通過網絡模型處理獲得候選檢測框;
2)針對所有候選檢測框利用多幅特征圖采用非極大值抑制算法進行迭代處理,優化獲得行人目標的檢測框作為檢測結果;
所述步驟1)具體分為兩個階段:
在模型訓練階段:
1.1)對輸入的行人圖像采用特征提取模塊后進行特征提取得到特征圖φdet;
1.2)輸入的行人圖像上存在真實矩形框,真實值為真實矩形框中點的坐標(xk,yk);特征圖φdet的大小為輸入的行人圖像的1/4,對于輸入行人圖像上的第k個真實值(xk,yk),該真實值(xk,yk)在特征圖φdet中位于坐標處,取特征圖φdet中位于特征提取后的真實值坐標附近的四個整數位置像素點坐標作為四個正樣本;
1.3)特征圖φdet分別連接到四個次級特征處理模塊進行處理,獲得中心點特征圖、尺度特征圖、偏移量特征圖和身份-密度特征圖,每個次級特征處理模塊均由兩個卷積層依次連接構成;
中心點特征圖、尺度特征圖、偏移量特征圖和身份-密度特征圖上的每個像素點代表對應一個檢測框,四種特征圖分別代表對應不同的檢測框屬性:中心點特征圖上的每個像素點表示特征圖φdet上對應的像素點為檢測框的中心的置信度,尺度特征圖上的每個像素點代表了以特征圖φdet上對應相同位置的像素點為中心所建立的檢測框的長和寬,偏移量特征圖上的每個像素點代表了特征圖φdet上對應像素點的坐標相對于原始輸入圖片上的坐標的偏移量;身份-密度特征圖上的每個像素點對應建立包含身份信息及密度信息的編碼向量;
1.4)利用損失函數進行網絡訓練;
在模型測試階段:
2.1)對輸入的行人圖像通過訓練好的檢測模型得到特征圖φdet進而得到四張與φdet同等大小的中心點特征圖、尺度特征圖、偏移量特征圖,以及身份-密度特征圖;
2.2)根據中心點特征圖上每一個像素點代表一個檢測框,每個點的值表示該點為檢測框中心的置信度,對置信度過低的檢測框進行過濾,獲得所有候選檢測框;
針對每個檢測框,建立一種長度為m的編碼向量e,編碼向量e起點為原點,編碼向量e的長度表示密度信息,編碼向量e的末端終點的坐標表示身份信息;并且在網絡模型優化訓練時,建立和利用以下編碼向量e的損失函數進行訓練:
1)先建立編碼向量e中密度信息的損失函數,通過最小化編碼向量e中密度信息與密度真實值之間的均方誤差進行表示,密度真實值是指該真實矩形框與其他真實矩形框的最大重疊度:
其中,N表示真實矩形框的數量,Np表示每個真實矩形框的正樣本數量,Np=4,ek,i表示第k個真實矩形框第i個正樣本的編碼向量,||ek,i||2表示L2范數,dk為真實矩形框k的密度真實值;
2)采用以下公式來表示編碼向量e中身份信息的損失函數,分為拉pull和推push兩部分:
其中,Lpull表示每個真實矩形框與對應的四個正樣本距離的子損失函數,Lpush表示每個檢測框與其他檢測框距離的子損失函數,表示編碼向量ek,i對應的單位向量,Δ表示判斷兩個檢測框是否重合的閾值,ek表示第k個真實矩形框四個正樣本編碼向量的均值,表示編碼向量ek對應的單位向量,表示第j個檢測框編碼向量對應的單位向量;
3)編碼向量e的損失函數LID表示為:
LID=λdensityLdensity+(Lpull+Lpush)
其中,λdensity表示子損失函數Ldensity所占的權重比例;
最后將編碼向量e的損失函數LID放入網絡結構中進行訓練得到身份-密度特征圖ID-Map;
所述步驟2)具體為:
將候選檢測框全部放入集合作為所有初始的檢測框的集合,同時建立一個空集作為檢測框的篩選結果集合,當集合不等于空集時,執行以下循環:
2.1)從集合中選取置信度最高對應的檢測框,記為當前最優檢測框將當前最優檢測框從集合中轉移到集合中;
2.2)計算集合和剩余的每個檢測框bi與當前最優檢測框的距離值若δt為預設的編碼向量距離閾值,則取自適應重疊度閾值為當前最優檢測框的編碼向量e中的密度信息max()表示取兩者中的較大者,否則取自適應重疊度閾值Nt為固定預設的非極大值抑制值;
2.3)最后比較每個檢測框bi與當前最優檢測框的重疊度與自適應重疊度閾值之間大小,若重疊度大于自適應重疊度閾值則將檢測框bi從集合中刪去,否則保留檢測框bi;
2.4)以最后獲得篩選結果集合中的檢測框作為行人圖像中的行人檢測結果。
2.根據權利要求1所述的一種用編碼向量的行人圖像檢測自適應非極大值抑制處理方法,其特征在于:所述步驟1.3)中,身份-密度特征圖的次級特征處理模塊是在特征提取模塊之后連接一個有256個通道的3×3卷積核的卷積層,再連接一個有256個通道的1×1卷積核的卷積層獲得身份-密度特征圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910936327.2/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





