[發明專利]基于局部和通道組合特征的行人重識別方法有效
| 申請號: | 202010460902.9 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN111709313B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 徐爾立;翁立;王建中 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/44;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 局部 通道 組合 特征 行人 識別 方法 | ||
1.一種基于局部和通道組合特征的行人重識別方法,其特征在于,包括以下流程:
一、訓練流程:對神經網絡進行訓練,以獲得最佳的網絡參數;訓練數據集中的樣本由行人圖片x和其對應的行人身份ID(x),ID(x)∈{1,...,C}組成;C代表行人身份總數,一個身份的行人具有多張圖片;
二、測試流程:
測試數據集分為查詢集和倉庫集,查詢集包含已知其身份的行人圖片,倉庫集包含和查詢集中行人身份相同的圖片以及和查詢集中行人身份不同的圖片;數據集的構建是先由視角不重疊的監控攝像頭拍攝下行人的圖片,再由行人檢測器(Deformable Parts Model,DPM)自動地標注出行人矩形框,最后保留矩形框中的行人圖片,并添加上行人的身份標簽,同一行人在查詢集和倉庫集中的圖片的拍攝視角不同;
訓練流程具體步驟如下:
步驟1、對訓練集中的樣本進行采樣生成小批量數據:
一個小批量數據中包含P×K張圖片,即不同身份的行人P個,每個行人K張圖片;如果在訓練集中,一個行人的圖片數量大于K張,則從中隨機采樣K張;小于K張,則采樣其所有的圖片,不夠的再重復采樣;
步驟2、通過數據增強的方式提升模型的抗遮擋能力:
2-1、生成一個可以存放不同分辨率圖片的圖片池Pool;
2-2、在每張圖片輸入到網絡之前,會以p1概率復制其中一小塊圖片存入Pool中;假設圖片的分辨率為H×W,一小塊圖片即圖片塊的分辨率隨機落在區間[0.1H,0.2H]×[0.1W,0.2W]之間,位置也是隨機選擇;
2-3、然后以p2概率從Pool中隨機挑選一圖片塊覆蓋在該圖片上,覆蓋的位置隨機選擇;
步驟3、加載預訓練網絡:
使用在ImageNet數據集上預訓練的ResNet-50網絡,保留該網絡全局平均池化GlobalAverage Pooling,GAP層之前的結構,并將最后一個卷積層Convolutional Layer的步長設置為1,將其記作“卷積基網絡”;一張分辨率為256×128的圖片輸入卷積基網絡后輸出尺寸為16×8×2048的張量特征圖T;
步驟4、對通道分組獲得每組通道的特征:
將步驟3中得到的尺寸為16×8×2048的張量特征圖T沿著通道,即最后一個維度,平均分成4組,每組的張量特征圖尺寸為16×8×512,分別記作T1,T2,T3,T4;
步驟5、對張量特征圖進行切割獲得局部特征:
將步驟4獲得的每組張量特征圖T1,T2,T3,T4,沿著其水平方向平均切割成4塊局部張量特征圖,每塊局部張量特征圖的尺寸為4×8×512,分別記作T11~T14,T21~T24,T31~T34,T41~T44;T經過步驟4和5得到16塊局部張量特征圖T11~T14,T21~T24,T31~T34,T41~T44;每塊局部張量特征圖代表著不同位置和不同通道的組合特征;
步驟6、對特征圖進行壓縮:
對張量特征圖T進行卷積,卷積核尺寸為16×8×512,個數為512個,參數隨機初始化,得到尺寸為1×1×512的全局特征g;同樣對T11~T14,T21~T24,T31~T34,T41~T44分別進行卷積,每塊局部張量特征圖對應的卷積核尺寸為4×8×512,個數為512,參數隨機初始化,得到16個尺寸為1×1×512的局部通道組合特征pc1~pc16;
步驟7、對不同的特征應用不同的損失函數:
對于局部通道組合特征pc1~pc16,分別應用批難樣本三元組損失Batch Hard TripletLoss:
式(1)中X代表步驟1采樣得到的小批量數據,θ代表網絡的參數;代表第i個行人對應K張圖片中的第a張圖片,代表第i個行人對應K張圖片中的第p張圖片,因兩張圖片屬于同一行人,稱之為正樣本對;代表第j個行人對應K張圖片中的第n張圖片,因和屬于不同行人,稱之為負樣本對;fθ(x)代表圖片x輸入網絡運算后輸出的特征,D(x,y)代表特征x和特征y的歐幾里得距離EuclideanDistance;m是一個常數,約束了兩個特征對距離之間的關系,[x]+=max(0,x);對于一個行人的一張圖片來說,遍歷該行人對應K張圖片中的每張圖片找到特定的使得和分別輸入網絡運算后得到的兩個特征間歐幾里得距離最大,即為一個正難樣本對;同時,遍歷其余行人的每張圖片,共(P-1)×K張圖片,記為找到特定的使得和分別輸入網絡運算后得到的兩個特征間歐幾里得距離最小,即為一個負難樣本對;該損失函數找出每個行人的每張圖片對應的正難和負難樣本對,并約束正難樣本對特征距離和負難樣本對特征距離間的關系;
對于特征pc1,其Batch Hard Triplet Loss為:
式(2)中代表從第i個行人的第a張圖片中提取的特征pc1,代表從第i個行人的第p張圖片中提取的特征pc1,代表從第j個行人的第n張圖片中提取的特征pc1;
對于全局特征g,分別應用Batch Hard Triplet Loss和Softmax Loss;其Batch HardTriplet Loss為:
式(3)中代表從第i個行人的第a張圖片中提取的特征g,代表從第i個行人的第p張圖片中提取的特征g,代表從第j個行人的第n張圖片中提取的特征g;在應用SoftmaxLoss之前,需要將g輸入一個全連接層Fully Connected Layer,FC layer;全連接層輸出神經元個數為訓練集行人身份總數C,全連接層參數隨機初始化;全局特征g的Softmax Loss為:
式(4)中代表從第i個行人的第j張圖片中提取的特征g,代表該圖片對應的行人身份;代表FC layer第個輸出神經元對應的權重,Wk代表FC layer第k個輸出神經元對應的權重;
該網絡總的損失函數為:
式(5)中λ1,λ2,λ3為三個損失的權重,滿足λ1+λ2+λ3=1;
步驟8、將步驟3-6中構建的網絡記為N;使用梯度下降算法,對步驟7中損失函數Loss求導并通過反向傳播來優化N中的可學習參數;
步驟9、使用空間變換網絡對齊特征圖:
9-1、將N中卷積基網絡的第4塊Res 4 Block輸出特征圖F4通過一個殘差連接塊和GAP層得到一個長度為6的向量θ(θ11,θ12,θ13,θ21,θ22,θ23);其中θ11,θ12,θ21,θ22用來縮放和旋轉特征圖,θ13,θ23用來平移特征圖;
9-2、利用θ11,θ12,θ13,θ21,θ22,θ23對N中卷積基網絡的第2塊Res 2Block輸出特征圖F2進行仿射變換,獲得空白特征圖F”2;對F2通道c的特征圖來說,其上一像素點的坐標為(xs,ys),經過仿射變換后變為(xt,yt),二者之間的關系為:
9-3、根據公式(6)對空白特征圖F”2從F2上采樣像素進行填充,得到對齊后的特征圖F2';在仿射過程中,會出現F”2中坐標對應的F2坐標超出F2原始范圍時,對于這些坐標,設置其像素值為0;出現F”2中坐標對應的F2坐標不是像素點時,通過雙線性插值來填充像素值到這些坐標上:
式(7)中是F”2的c通道上(m,n)位置的像素值,是F2的c通道上(xs,ys)位置的像素值;
步驟10、處理對齊后特征圖:
對于對齊后的特征圖F'2,將其輸入一個新的卷積網絡,所述的新的卷積網絡是由在ImageNet數據集上預訓練的ResNet-50網絡中的Res 3 Block、Res 4 Block、Res 5 Block堆疊而成,輸出和步驟3中特征圖T同樣尺寸的特征圖Talign;對于Talign,進行和步驟3-6中相同的操作, 同樣得到1個全局特征galign以及16個局部和通道組合特征記步驟9-10中構建的網絡為Nalign,Nalign是由N中卷積基網絡的Res 1 Block、Res 2 Block、Res3 Block、Res 4 Block、STN、新的卷積網絡中Res 3 Block、Res 4 Block、Res 5 Block、對全局特征以及局部和通道組合特征進行壓縮的卷積層構成;對全局特征galign以及局部和通道組合特征使用步驟7中相同的損失函數,優化Nalign中可學習的參數。
2.根據權利要求1所述的一種基于局部和通道組合特征的行人重識別方法,其特征在于,測試流程具體步驟如下:
步驟1、將一張待查詢的行人圖片輸入Nalign,將輸出的galign和連接起來得到該行人的描述符是一個8704維特征向量;
步驟2、倉庫集中所有圖片同樣經過步驟1得到其行人描述符;
步驟3、分別計算待查詢行人描述符和倉庫集中每一個行人描述符間的cosine距離并保存下來;
步驟4、對所保存的距離按照從小到大的順序進行排序,并選擇其中前k個距離所對應的倉庫行人圖片,作為該待查詢行人的重識別結果;
步驟5、通過對比重識別獲得的倉庫行人圖片的真實身份和待查詢行人的身份是否一致來衡量模型的識別性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010460902.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種勵磁系統的脈沖出錯處理方法
- 下一篇:一種除濕控制方法、裝置及除濕設備





