[發明專利]一種融合注意力機制的深度哈希車輛圖像檢索方法在審
| 申請號: | 202010532689.8 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111694974A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 謝武;崔夢銀;劉滿意;強保華;賈清玉;謝天 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51;G06F16/583;G06N3/04;G06N3/08 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 陸夢云 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 注意力 機制 深度 車輛 圖像 檢索 方法 | ||
1.一種融合注意力機制的深度哈希車輛圖像檢索方法,其特征是:包括如下步驟:
(1)搭建基于Pytorch的深度學習車輛圖像檢索環境;
(2)數據預處理:對車輛圖像數據集進行歸一化,處理成網絡模型需要的數據輸入格式;
(3)車輛數據集劃分:將車輛圖像數據集按8:1:1的比例劃分為訓練集、驗證集和檢索測試集,從檢索測試集中隨機選取一批圖片作為查詢圖片,其余圖片作為圖像數據庫;
(4)模型構建:使用深度神經網絡中的殘差網絡模型作為車輛圖像檢索模型,并在訓練集上進行訓練:
接收一個三元組的輸入(ui,uj,mij),在殘差網絡的第四階段和第五階段之間添加一個注意力機制模塊,借助注意力機制來識別車輛圖像中多個目標對象的近似位置,獲得一個專注的特征表示,然后添加一個哈希層生成定長的二值編碼;另外,將成對車輛圖像標簽向量的余弦距離作為監督信息參加模型訓練;同時,引入成對相似性損失函數以維持車輛圖像之間的相似性,并且引入量化損失函數來控制二值編碼的質量;
(5)特征提取:使用訓練好的模型對車輛圖像進行特征提取;
(6)測試模型:把步驟(3)挑選出來的圖片作為查詢圖片,使用訓練好的模型提取該車輛圖像的特征,使用漢明距離與特征數據庫中的所有特征進行相似度度量,并按照相似度大小返回檢索的結果;最后用ACG和NDCG評價指標對返回的結果進行評價。
2.根據權利要求1所述的融合注意力機制的深度哈希車輛圖像檢索方法,其特征是:步驟(4)所述注意力機制模塊分為主干分支和掩膜分支兩個分支,其中:
主干分支執行特征提取,給定輸入x,主干分支輸出T(x);
掩膜分支執行特征選擇,使用自上而下和自下而上的結構學習相同大小的掩膜M(x),輸出的掩膜分支作為主干輸出的控制門,注意力模塊H(x)的輸出為公式(1):
Hi,c(x)=Mi,c(x)*Ti,c(x) (1)
其中i覆蓋到空間中所有位置,c是通道的索引,整個結構可以進行端到端的訓練;在注意力掩膜分支中,輸入特征的掩膜梯度為公式(2):
其中θ為掩膜分支的參數,φ為主干分支參數,掩膜分支的取值范圍為[0,1],利用殘差學習思想,公式(1)注意力模塊的輸出可以改寫成(3):
Hi,c(x)=(1+Mi,c(x))*Fi,c(x) (3)
當注意力掩膜分支M(x)的取值接近為0時,H(x)將近似于原始特征F(x);將注意力機制與殘差網絡相結合,提出注意力殘差模塊,在注意力殘差模塊中,Fi,c(x)表示深度卷積網絡生成的特征,在注意力殘差模塊中,存在著三個超參數p,t,r,超參數p表示在分裂成主干分支和掩膜分支之前預處理殘差單元的數量;t表示主干分支殘差單元的數量;r表示掩膜分支中相鄰池化層之間的殘差單元數量。
3.根據權利要求2所述的融合注意力機制的深度哈希車輛圖像檢索方法,其特征是:所述注意力掩膜分支殘差單元通道數與對應主干分支的通道數相同。
4.根據權利要求1所述的融合注意力機制的深度哈希車輛圖像檢索方法,其特征是:步驟(5)所述的特征提取包括兩個面:一個是對用戶上傳的查詢圖片進行特征提取,另一個是對車輛圖片數據庫進行特征提取構建車輛圖像特征數據庫。
5.根據權利要求1所述的融合注意力機制的深度哈希車輛圖像檢索方法,其特征是:步驟(6)所述選取兩種評價指標對實驗結果進行評價,分別為平均累加增益(ACG)和歸一化折扣累加增益(NDCG);ACG(平均累加增益)表示查詢圖像和前n個檢索到的圖像之間共享標簽的平均數量,給定查詢圖像Iq,前n個返回圖像的ACG得分由公式(5)來計算,其中C(q,i)為Iq和Ii共享標簽的數量:
NDCG(歸一化折扣累加增益)是一種用來衡量車輛圖像檢索任務排序結果質量的評價指標;給定一個查詢圖像,在返回結果的圖像列表中某一特定位置k處累加的DCG得分計算公式定義為:
其中,reli為相似度級別,通過兩幅圖像之間共有的標簽數量來衡量,最大值為查詢圖像與數據庫中圖像的最大的相同標簽數,最小值為0;NDCG在k處的計算得分如公式(7)所示,其中Zk為DCG理想情況下的最大值,所以NDCG的取值范圍為[0,1]:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010532689.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于數據增強的車輛圖像檢索方法
- 下一篇:一種可調受熱的空調室外機





