[發明專利]基于GAN神經網絡的行人重識別系統及方法在審
| 申請號: | 201910208515.3 | 申請日: | 2019-03-19 |
| 公開(公告)號: | CN110084108A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 高明柯;杜欣軍;周燕瓊;房家驥;王熠;邵培南;白利娟;夏定江;于楠 | 申請(專利權)人: | 華東計算技術研究所(中國電子科技集團公司第三十二研究所) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06N3/04 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201800 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像重建 神經網絡 生成圖像 識別系統 視頻 高分辨率圖像 直方圖提取 低分辨率 距離度量 提取圖像 圖像生成 網絡判斷 紋理特征 信息檢索 顏色特征 重新生成 魯棒性 原圖像 降維 網絡 圖像 監控 應用 | ||
1.一種基于GAN神經網絡的行人重識別系統,其特征在于,包括圖像重建與增強模塊、行人重識別模塊;
所述圖像重建與增強模塊能夠生成網絡、判別網絡與損失函數計算以及對重建好的圖像進行增強;
所述行人重識別模塊能夠對所述圖像重建與增強模塊獲得的增強圖片進行行人重識別。
2.根據權利要求1所述的基于GAN神經網絡的行人重識別系統,其特征是,所述生成網絡包含多個殘差塊,每個殘差塊中包含兩個3×3的卷積層,卷積層后連接批規范化層,選取PReLU作為激活函數,再連接兩個亞像素卷積層用來增大特征尺寸。
3.根據權利要求1所述的基于GAN神經網絡的行人重識別系統,其特征是,所述判別網絡包含8個卷積層,隨著網絡層數加深,特征個數不斷增加,特征尺寸不斷減小,選取LeakyReLU作為激活函數,最終通過兩個全連接層和sigmoid激活函數得到預測為原圖像的概率。
4.根據權利要求3所述的基于GAN神經網絡的行人重識別系統,其特征是,所述判別網絡判斷獲取的是生成圖像還是原圖像,若為生成圖像,則重新生成,直到判別網絡無法區分,則完成圖像重建。
5.根據權利要求1所述的基于GAN神經網絡的行人重識別系統,其特征是,所述損失函數計算包括對內容損失和對抗損失采用不同權重進行加權計算,所述內容損失為生成圖像和原圖像之間的歐氏距離,所述對抗損失用來生成讓判別器無法區分的數據分布。
6.根據權利要求5所述的基于GAN神經網絡的行人重識別系統,其特征是,所述內容損失包括像素空間的最小均方差Mseloss和以預訓練19層Vgg網絡的ReLU激活層為基礎求生成圖像和原圖像特征之間的歐氏距離Vggloss。
7.根據權利要求1所述的基于GAN神經網絡的行人重識別系統,其特征是,所述圖像重建與增強模塊使用Retinex algorithm算法進行圖像增強。
8.根據權利要求7所述的基于GAN神經網絡的行人重識別系統,其特征是,所述Retinexalgorithm算法首先根據像素的R、G、B分量將輸入的彩色圖像分解為三幅圖像,代表場景中波長不同的反射光的強度;分別計算長波、中波和短波波段內像素間的相對明暗關系,進而確定每個像素的色彩,最后將Retinex色度空間內的色彩線性映射到RGB空間,獲得增強圖像。
9.根據權利要求1所述的基于GAN神經網絡的行人重識別系統,其特征是,行人重識別模塊首先在圖像重建與增強的基礎上用HSV直方圖提取顏色特征,用SILTP提取紋理特征,再提取圖像LOMO特征,最后通過XQDA方法對空間進行降維,并使用距離度量進行行人重識別。
10.一種基于GAN神經網絡的行人重識別方法,其特征在于,包括如下步驟:
步驟1,構建生成網絡:
生成網絡部分包含多個殘差塊,每個殘差塊中包含兩個3×3的卷積層,卷積層后連接批規范化層,選取PReLU作為激活函數,再連接兩個亞像素卷積層用來增大特征尺寸;
步驟2,構建判別網絡:
判別網絡部分包含8個卷積層,隨著網絡層數加深,特征個數不斷增加,特征尺寸不斷減小,選取LeakyReLU作為激活函數,最終通過兩個全連接層和sigmoid激活函數得到預測為原圖像的概率;
步驟3,損失函數計算:
損失包括兩部分:超分辨率圖像(SR)的內容損失的加權和生成器(Gen)的對抗損失
其中X表示一組高分辨率圖像和低分辨率圖像。
內容損失表示生成圖像和原圖像之間的歐氏距離,包括Mse loss和Vgg loss;
Mse loss表示像素空間的最小均方差:
其中,x、y表示圖像坐標點;r表示采樣因子;W表示低分辨率(LR)圖像ILR的寬度;H表示低分辨率圖像的高度;rW與rH分別表示r倍的低分辨率圖像ILR的寬度與高度;IHR表示高分辨率圖像,即原圖像;GθG(ILR)x,y為生成網絡合成的高分辨率圖;GθG表示生成器,θG表示L層深度網絡的權重和偏置;
Vgg loss:以預訓練19層Vgg網絡的ReLU激活層為基礎,求生成圖像和原圖像特征之間的歐氏距離,在已經訓練好的Vgg上提取某一層的feature map,將生成圖像當前層的feature map和原圖像所對應的feature map進行比較:
其中,Wi,j和Hi,j描述VGG網絡內各個特征圖的尺寸;i,j表示第i次最大化pooling層后的第j次卷積;φ對應VGG網絡中間某卷積層經過激活函數后輸出的特征圖,φi,j(IHR)x,y表示高分辨率圖像的特征圖,φi,j(GθG(ILR))x,y表示生成網絡合成圖像的特征圖,該損失函數能反映更高感知層次上的誤差,而均方誤差損失項只能反映低層次的像素點間的誤差,因此VGG損失項又稱為感知損失項;
對抗損失用來生成讓判別器無法區分的數據分布:
其中,DθD為判別器,θD為判別器的權重,取決于候選樣本來自數據分布的概率;DθD(GθG(ILR))表示的是判別器將生成圖像預測為原圖像的概率;N為樣本數量;
步驟4,使用Retinex algorithm進行圖像增強:
首先根據像素的R、G、B分量將輸入的彩色圖像分解為三幅圖像,代表場景中波長不同的反射光的強度;分別計算長波、中波和短波波段內像素間的相對明暗關系,進而確定每個像素的色彩,最后,將Retinex色度空間內的色彩線性映射到RGB空間,獲得增強圖像;
步驟5,特征提取:
在步驟1-4進行圖像重建和增強的基礎上,用HSV直方圖提取顏色特征,用SILTP提取紋理特征;
步驟6,LOMO提取特征:
對原始圖像進行兩次2×2 average pooling的降采樣,對三個圖像均采用LOMO提取特征,然后將三個圖像的特征拼接成一個特征向量,最后針對特征向量中的特大值采用log變換進行抑制,之后再歸一化到單位大小;
步驟7,采用XQDA方法對空間進行降維和距離度量:
令Δ=xi-xj表示2個樣本之間的特征差異,P為高斯分布,P(Δ|ΩI)為同類樣本之間的差異Δ符合類內差異ΩI的高斯分布,P(Δ|ΩE)為異類樣本之間的差異Δ符合類間差異ΩE的高斯分布,并且均值都為0:
其中,T為矩陣轉置,d(xi-xj)為距離函數,∑E和∑I分別是相似樣本對集和不相似樣本對集樣本的協方差矩陣;f(Δ)表示2個樣本之間的距離,若大于0,則表示很大概率上不是同類;
XQDA方法將特征主成分分析和相似性學習同時進行,通過學習映射矩陣W∈Rd×r(r<d),將原始特征xi,xj∈Rd映射到多維子空間,實現特征降維,提高特征匹配的準確性,其中矩陣W由主成分分析的前r個最大特征值對應的特征向量構成,d表示維度,因此,公式(6)中定義的距離函數換轉換為:
f(Δ)=(x-z)TW(∑′I-1-∑′E-1)WT(x-z) (7)
其中,T為矩陣轉置,∑′I-1=WT∑IW,表示不相似樣本對集樣本的協方差矩陣,∑′E-1=WT∑EW,表示相似樣本對集的協方差矩陣;x是一個視角的樣本點,z是另一個視角的樣本點;
步驟8:輸出識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東計算技術研究所(中國電子科技集團公司第三十二研究所),未經華東計算技術研究所(中國電子科技集團公司第三十二研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910208515.3/1.html,轉載請聲明來源鉆瓜專利網。





