[發(fā)明專利]一種基于深度余弦度量學(xué)習(xí)的行人重識別方法在審
| 申請?zhí)枺?/td> | 201811621891.7 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109829377A | 公開(公告)日: | 2019-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 王敏;單純;蔡鑫鑫 | 申請(專利權(quán))人: | 河海大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 唐紅 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 余弦度量 度量 分類 余弦相似度 動態(tài)分類 相似度量 學(xué)習(xí)目標(biāo) 直接編碼 參量化 參數(shù)化 分類器 卷積 余弦 學(xué)習(xí) 剝離 鄰近 測試 查詢 重復(fù) 網(wǎng)絡(luò) | ||
本發(fā)明公開一種基于深度余弦度量學(xué)習(xí)的行人重識別方法,通過在卷積softmax動態(tài)分類器上的一個簡單重復(fù)參數(shù)化來使得余弦相似度達(dá)到最佳效果,在測試時,最終的分類層可以從網(wǎng)絡(luò)中剝離,以方便對使用余弦相似度量的未見個體進(jìn)行最鄰近查詢。本發(fā)明將分類方法與度量學(xué)習(xí)方法相結(jié)合,通過softmax分類器的再參量化,從而將度量學(xué)習(xí)目標(biāo)直接編碼到分類任務(wù)中。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)領(lǐng)域,具體涉及一種基于深度余弦度量學(xué)習(xí)的行人重識別方法。
背景技術(shù)
行人重識別是視頻監(jiān)控中的常見任務(wù)。給定一個查詢圖像后在一個可能包含同一個人的大型圖像庫中進(jìn)行搜索。由于圖像集通常是從不同的相機(jī)和不同的地點(diǎn)采集,因此系統(tǒng)必須處理姿勢的變化,不同的照明條件以及背景的變化。自從大型的數(shù)據(jù)集的出現(xiàn),深度學(xué)習(xí)已經(jīng)成為行人重識別領(lǐng)域的主要使用方法,但是仍然有許多的問題和挑戰(zhàn)等待去解決。比如有關(guān)直接度量學(xué)習(xí)目標(biāo)的方法與非直接在分類框架下訓(xùn)練方法的優(yōu)劣比較的討論一直持續(xù)進(jìn)行。
直接度量學(xué)習(xí)的優(yōu)勢在于能夠?qū)⑾嗨贫攘恐苯泳幋a為訓(xùn)練目標(biāo),但是在過去的使用中發(fā)現(xiàn)該方法同樣存在一些問題。首先,度量學(xué)習(xí)目標(biāo)存在如不平滑、缺少鄰近結(jié)構(gòu)文本信息等不利于優(yōu)化的特性。其次,相似度的定義僅僅基于成員關(guān)系,在分類體系中,直接度量學(xué)習(xí)并不一定優(yōu)于基于訓(xùn)練分類的方法。
在這樣的情況下,直接度量學(xué)習(xí)往往會被簡化為最小化同類樣本間距,并且在不同樣本間產(chǎn)生一個差值。而基于分類的方法則是在訓(xùn)練集的標(biāo)識集上訓(xùn)練出一個分類器,然后使用網(wǎng)絡(luò)的底層特征表示去執(zhí)行最鄰近查詢,但是通常情況下,那些與softmax分類器一起訓(xùn)練好網(wǎng)絡(luò)表示并不一定能夠直接用于圖像檢索任務(wù)。
發(fā)明內(nèi)容:
發(fā)明目的:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的不足,提供一種基于深度余弦度量學(xué)習(xí)的行人重識別方法,將直接度量學(xué)習(xí)與分類方法相結(jié)合,提供一種簡單有效的再參數(shù)化softmax分類器,從而將度量學(xué)習(xí)目標(biāo)能夠直接編碼到分類任務(wù)。
技術(shù)方案:本發(fā)明的一種基于深度余弦度量學(xué)習(xí)的行人重識別方法,先調(diào)整輸入圖像的尺寸,將圖像呈現(xiàn)到RGB空間的網(wǎng)絡(luò)中,然后通過一系列的卷積層調(diào)整feature map的尺寸,接著提取總體特征向量進(jìn)行歸一化以后,將特征投射到應(yīng)用cosine softmax分類器的單位球面上,最后分類器通過最大可能性來選擇類;
包括以下步驟:
步驟1:將輸入圖像調(diào)整為對應(yīng)尺寸(即行人圖像的最佳取值例如128*64) 并呈現(xiàn)到RGB網(wǎng)絡(luò)中,且RGB網(wǎng)絡(luò)包含若干遵循預(yù)激活排列的殘差塊;
步驟2:通過對應(yīng)卷積層將feature map的尺寸減小到對應(yīng)大小(例如16*8);
步驟3:將上述所得結(jié)果放入dense層中提取總體特征向量;
步驟4:使用l2normalization對特征向量進(jìn)行歸一化;
步驟5:將歸一化后的特征投射到應(yīng)用cosine softmax分類器的單位球面上;
步驟6:分類器通過最大可能性來選擇類。
進(jìn)一步的,所述步驟2的具體內(nèi)容為:為避免梯度消失,在網(wǎng)絡(luò)結(jié)構(gòu)中引入了殘差網(wǎng)絡(luò)塊,同時引入了WRN中提及的方法以提高殘差網(wǎng)絡(luò)的性能,具體如下:首先將調(diào)整后圖像依次放入兩個卷積核大小為3*3、步長為1的卷積層,得到輸出結(jié)果的大小為32*128*64;然后將輸出結(jié)果放入池化層,其中滑動窗口的大小為3*3,步長為2,采用最大值池化的方式得到輸出結(jié)果,輸出的大小為 32*64*32;把池化后的輸出結(jié)果放入6個按照預(yù)激活排列的殘差塊中,每個殘差塊均包含2個卷積層,所有卷積的尺寸都為3*3,并且最大池化被步幅為2的卷積層替代,輸出的結(jié)果的大小為128*16*8;這樣當(dāng)特征層空間分布率減少時,為了避免障礙,通道的數(shù)量會相應(yīng)增加。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811621891.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于余弦相似度的RSS檢測差異補(bǔ)償方法
- 一種人臉再識別方法
- 一種非負(fù)特征提取及人臉識別應(yīng)用方法、系統(tǒng)及存儲介質(zhì)
- 一種基于深度余弦度量學(xué)習(xí)的行人重識別方法
- 一種基于余弦測度的改進(jìn)PCA-SIFT圖像配準(zhǔn)方法
- 一種基于余弦度量的深度哈希圖像檢索方法
- 基于修正余弦相似度的沖突度量方法及設(shè)備
- 一種文本標(biāo)簽的搜索匹配方法、裝置、設(shè)備及存儲介質(zhì)
- 基于膨脹卷積殘差網(wǎng)絡(luò)的服裝圖像檢索系統(tǒng)及方法
- 一種寶石相似性度量數(shù)據(jù)處理方法及相關(guān)設(shè)備
- 有趣項(xiàng)集獲取方法和裝置
- 基于Word2Vec和Querylog抽取關(guān)鍵詞方法
- 文本相似度計(jì)算方法及裝置
- 人臉圖像比對方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 人臉圖像比對方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種基于余弦相似度的語音識別方法和裝置
- 基于描述內(nèi)容與圖像內(nèi)容特征的圖像綜合相似分析方法
- 海量文本去重篩選的方法、設(shè)備和存儲介質(zhì)
- 浮點(diǎn)神經(jīng)網(wǎng)絡(luò)模型量化系統(tǒng)和方法
- 一種基于語義關(guān)系的智能推薦方法





