[發(fā)明專利]一種基于深度多索引哈希的行人重識別方法有效
| 申請?zhí)枺?/td> | 201910166071.1 | 申請日: | 2019-03-06 |
| 公開(公告)號: | CN109919084B | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計)人: | 李武軍;李明威;蔣慶遠(yuǎn) | 申請(專利權(quán))人: | 南京大學(xué) |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/764;G06V10/82;G06N3/0464;G06N3/084 |
| 代理公司: | 南京樂羽知行專利代理事務(wù)所(普通合伙) 32326 | 代理人: | 孫承堯 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 索引 行人 識別 方法 | ||
1.一種基于深度多索引哈希的行人重識別方法,其特征在于,該方法包括以下的步驟:
1)基于行人區(qū)域檢測技術(shù),從原始視頻數(shù)據(jù)中構(gòu)造行人圖片訓(xùn)練集;
2)基于行人圖片訓(xùn)練集,構(gòu)建并訓(xùn)練多粒度網(wǎng)絡(luò)模型,得到哈希函數(shù)以及訓(xùn)練集圖片對應(yīng)的實值特征和哈希編碼;
將行人圖片作為多粒度網(wǎng)絡(luò)模型的輸入,學(xué)習(xí)行人圖片的實值特征表示和哈希編碼;多粒度網(wǎng)絡(luò)模型以ResNet-50作為主干,包括五層卷積神經(jīng)網(wǎng)絡(luò),一層全局池化層,一層維度壓縮層,一層哈希層,其中第五層卷積神經(jīng)網(wǎng)絡(luò)將原始的ResNet-50劃分為:全局分支、上下身分支、上中下身分支;
在訓(xùn)練和測試的過程中將三個分支的輸出進(jìn)行合并從而得到行人圖片的實值特征表示,這樣的特征表示蘊(yùn)含了多粒度的行人信息;對于每一個分支,在特征表示層后添加一層全連接層作為哈希層,哈希層的維度對應(yīng)于哈希編碼的長度;在多粒度網(wǎng)絡(luò)模型的訓(xùn)練過程中,使用歸一化指數(shù)函數(shù)損失為行人圖片的實值特征表示建模,使用三元組損失為行人圖片的哈希編碼建模,使用多索引查詢敏感損失來為檢索進(jìn)行加速;在求解時,使用梯度反向傳播優(yōu)化深度網(wǎng)絡(luò)的參數(shù);
多粒度網(wǎng)絡(luò)模型的目標(biāo)函數(shù)由三部分組成,對于第i個輸入圖片xi,令{fi(1),fi(2),fi(3)}表示多粒度網(wǎng)絡(luò)模型輸出的實值特征表示,令{di,gi,hi}表示對應(yīng)的離散二值編碼,其中di,gi,hi∈{-1,+1}r,r為單個分支輸出的哈希編碼的長度,規(guī)定[]T表示向量的轉(zhuǎn)置,[x]+表示函數(shù)max(0,x),∥bi-bj∥H表示二值向量bi和bj之間的海明距離:
1)對于最小批處理量為N的數(shù)據(jù)三元組損失函數(shù)如下定義:
其中di,分別表示錨點、正樣例點、負(fù)樣例點,α表示間隔超參數(shù);
定義關(guān)于離散二值編碼{di,gi,hi}的三元組損失函數(shù)如下:
2)使用歸一化指數(shù)函數(shù)損失為行人圖片的實值特征表示建模,定義分類損失函數(shù)如下:
定義關(guān)于實值特征的歸一化指數(shù)函數(shù)損失如下:
3)在需要建立m個哈希索引的情況下,對哈希編碼進(jìn)行m等份的劃分;設(shè)計分塊劃分策略,對每個分支輸出的哈希編碼單獨進(jìn)行m等份的劃分,然后將各分支的第j份劃分進(jìn)行合并以形成第j個索引
令和分別表示離散二值變量bi和bj的第l個索引,定義和之間的海明距離為定義多索引查詢敏感損失如下:
綜合式(2),(4),(6),得到多粒度網(wǎng)絡(luò)模型的最終目標(biāo)函數(shù)如下:
β,γ是折中超參數(shù),均為正實數(shù),N是最小批處理量,r為單個分支輸出的哈希編碼的長度,在求解時,對目標(biāo)函數(shù)(7)進(jìn)行求導(dǎo),使用梯度反向傳播優(yōu)化模型的參數(shù),訓(xùn)練完成后,將實值特征保存在外存,構(gòu)建外存數(shù)據(jù)庫;基于哈希編碼構(gòu)建索引,并將哈希編碼及索引保存在內(nèi)存,構(gòu)建內(nèi)存數(shù)據(jù)庫,以便于快速檢索;
3)基于哈希編碼,設(shè)計分塊劃分策略構(gòu)建索引;
4)對于攝像頭新收集的數(shù)據(jù),使用哈希函數(shù)計算哈希編碼,并實時增加到索引中;
5)對于給定的目標(biāo)行人圖片,使用哈希函數(shù)計算哈希編碼,基于哈希編碼在索引中進(jìn)行檢索,再基于實值特征進(jìn)行重排序。
2.如權(quán)利要求1所述的基于深度多索引哈希的行人重識別方法,其特征在于,所述步驟1)中,對于來自監(jiān)控攝像頭的原始視頻數(shù)據(jù),首先需要進(jìn)行視頻切幀操作,然后對切幀后的圖片數(shù)據(jù)進(jìn)行行人區(qū)域檢測,以生成行人圖片作為訓(xùn)練集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910166071.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





