[發明專利]一種自監督學習的行人檢索方法及裝置有效
| 申請號: | 202110761272.3 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113255615B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 李軍;周金明 | 申請(專利權)人: | 南京視察者智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210014 江蘇省南京市秦淮區永智*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 學習 行人 檢索 方法 裝置 | ||
1.一種自監督學習的行人檢索方法,其特性在于,該方法包括如下步驟:
第一步,構建模型M;
使用基于ImageNet分類數據集的預訓練卷積神經網絡模型,去除該預訓練卷積神經網絡模型的全局池化層和全連接層,額外增加1層卷積層,卷積核尺寸為3×3,步長為1,padding為1,輸出通道為512;對該增加的卷積層的輸出,增加位置編碼,之后輸入進Transformer Encoder模型;在Transformer Encoder模型之后增加一層全連接層,將Transformer Encoder模型的第1個輸出,輸入該增加的全連接層,全連接層的輸出維度為1000;
將ImageNet分類數據集中的輸入圖像,尺寸統一縮放到256×128,經過預訓練卷積神經網絡的處理之后,尺寸縮小32倍,輸出的特征圖尺寸為8×4,通道數量為512;將該512×8×4的特征圖按照后面兩個維度,按照從上到下、從左到右的順序拉伸成2維的512×32特征圖,即有32個512維的向量,對于此32個向量,每個向量增加1個512維的位置編碼向量;
對構建模型M的參數進行初始化:使用現有的在ImageNet上訓練出的值對預訓練卷積神經網絡模型的參數值進行初始化,使用[-1,1]之間的隨機值對增加的1層卷積層、Transformer Encoder模型的參數、及最后的全連接層進行初始化,在ImageNet數據集上,根據損失函數和優化算法訓練模型,直至模型收斂;
第二步,對模型M進一步訓練;
對于在ImageNet分類數據集上訓練出的模型M,收集帶有標注信息的行人重識別公開數據集作為訓練集,去除模型M的最后一層全連接層,使用Triplet Loss損失和SGD優化算法,訓練模型,直至模型收斂;
第三步,采集實際應用場景下的視頻數據對第二步得到的模型M進行訓練;
實際應用場景下的視頻數據包含不同攝像頭、不同時間段的視頻,使用行人檢測模型從視頻圖像中檢測出每個行人的位置,并提取出對應的行人區域圖像,統一縮放到256×128的尺寸;
使用第二步中訓練出的模型M,對每張256×128的行人區域圖像提取特征,即Transformer Encoder模型的第1個輸出,特征維度為512,提取結束之后,對每個特征采用歸并集算法進行聚類,聚類算法為:設定相似度閾值,將同一行人不同姿態的圖片聚集到一起形成一個集合,對每個集合,設定數量閾值n,對于集合數量大于n的類別,通過提高相似度閾值的方法,對該集合使用歸并集算法再次聚類,如此迭代,直至最終每個集合的元素數量低于設定的閾值,最終根據聚類得到N個集合;
對于聚類出的每個集合,按照順序賦予一個偽標簽,偽標簽的取值為[0, N),集合中的每個元素的ID標簽即為該集合的標簽,這樣,數據集中的每個元素均被賦予了1個標簽,對于每個集合,計算該集合中所有元素的特征的平均值,以該平均值為該集合的中心特征;
訓練模型,使用InfoNCE loss計算損失,
使用SGD優化算法訓練模型,在每一輪訓練結束后,保留上一輪中的中心特征,將其作為一個新的特征數據,加入到本輪提取出的特征數據集中,再按照聚類算法進行重新聚類,聚類結束后,再重新給每個數據元素賦予一個偽標簽,使用InfoNCE loss損失計算方法和SGD優化算法,進行模型的迭代訓練,直至模型收斂;
第四步,模型部署;
對需要檢索的人員創建底庫圖片,使用第三步訓練出的模型提取特征,并對特征進行歸一化,之后進行存儲;對每張待查詢的圖片,使用第三步訓練出的模型提取特征,對特征進行歸一化,計算該待查詢圖片的特征與所有底庫圖片的特征的相似度,選取出相似度最高的底庫圖片,若最高相似度同時大于預先設定的相似度匹配閾值,則判斷該查詢圖片中的行人屬于該底庫圖片中對應的目標人員。
2.根據權利要求1所述的一種自監督學習的行人檢索方法,其特性在于,第一步所述預訓練卷積神經網絡模型使用ResNet50模型。
3.根據權利要求1所述的一種自監督學習的行人檢索方法,其特性在于,第一步中每個向量增加1個512維的位置編碼向量,其位置編碼函數定義為:
其中t代表32個位置的序號,t∈[0,32),i代表維度編號,i∈[0, 512),k的取值范圍為[0, 256),d為常數512。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京視察者智能科技有限公司,未經南京視察者智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110761272.3/1.html,轉載請聲明來源鉆瓜專利網。





