[發明專利]一種弱監督的深度上下文感知圖像表征方法及系統有效
| 申請號: | 202011587005.0 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112667841B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 劉萌;田傳發;周迪;齊孟津;聶秀山 | 申請(專利權)人: | 山東建筑大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/55;G06V10/77;G06V10/764;G06V10/82;G06N3/0464;G06N3/0895 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250101 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 監督 深度 上下文 感知 圖像 表征 方法 系統 | ||
1.一種弱監督的深度上下文感知圖像表征方法,其特征是,包括:
獲取待處理圖像;
訓練后的圖像編碼器,對待處理圖像進行表征提取,提取出基礎視覺表征;基于基礎視覺表征,生成上下文強化視覺表征;對上下文強化視覺表征映射為哈希向量;從而生成蘊含細粒度視覺語義信息的圖像表征;
對哈希向量,進行二值化處理,得到待處理圖像的哈希表征;
所述圖像編碼器,包括:
依次連接的ResNet-50網絡、自注意力機制模塊、求和單元、平均池化層和多層感知機網絡;其中,ResNet-50網絡作為圖像編碼器的輸入端,多層感知機網絡作為圖像編碼器的輸出端;
所述ResNet-50網絡,用于對待處理圖像進行表征提取,提取出基礎視覺表征;
采用預訓練的ResNet-50網絡作為基礎視覺表征提取模型的主干網絡,輸入一張224x224x3維的圖像,通過ResNet-50網絡的Conv1、Conv2_x、Conv3_x、Conv4_x和Conv5_x這5層,最終輸出7x7x2048維的特征圖,將過程總結如下:
Xi=φ(Ii),
其中,φ表示ResNet-50網絡去除最后一層全連接層的部分,表示提取的基本視覺表征;特征圖中的每個像素對應于原始輸入圖像中的一個區域;
所述自注意力機制模塊,用于捕獲基礎視覺表征的特征圖上每一個點的上下文信息,得到上下文強化后的區域表征矩陣;
利用自注意力機制捕獲特征圖上每一個點的上下文信息,即
其中,為將Xi維度變形后的結果,為學習的注意力權重矩陣,為上下文強化后的區域表征矩陣;
所述求和單元,用于將上下文強化后的區域表征與基礎視覺表征相加,得到增強后的區域特征;
所述平均池化層,用于對增強后的區域特征進行融合得到上下文強化的視覺表征;
選擇平均池化操作將增強后的區域特征融合為一個視覺表征向量;平均池化操作表示為:
其中,為上下文強化的視覺表征,avg_pooling表示平均池化操作;
所述多層感知機網絡,用于對上下文強化的視覺表征進行映射為哈希向量;
分別利用一個多層感知機網絡將上下文強化視覺表征映射為維度為L的哈希向量隱藏層的定義如下:
其中,θ1和θ2分別對應Relu和sigmoid激活函數,Wl和bl(l∈{1,2})分別表示學習的參數矩陣和向量;
所述訓練后的圖像編碼器,訓練步驟包括:
構建訓練集;所述訓練集包括已知用戶標簽的圖像;
將訓練集中的圖像作為圖像編碼器的輸入值,將訓練集中的已知標簽的表征向量作為圖像編碼器的輸出值,對圖像編碼器進行訓練;
當圖像編碼器的總損失函數達到最小值時,停止訓練,得到訓練后的圖像編碼器;
所述已知標簽的表征向量,獲取步驟包括:
對訓練集圖像的已知標簽,采用標簽編碼器進行編碼處理,得到已知標簽的表征向量;
所述采用標簽編碼器進行編碼處理,具體步驟包括:
將與圖像對應的每一個標簽信息采用word2vec工具得到詞向量編碼;
對所有的詞向量編碼,進行平均池化處理,得到已知標簽的表征向量;
所述圖像編碼器的總損失函數,包括:量化損失函數、成對損失函數、鉸鏈損失函數和辨別損失函數;
所述量化損失函數,旨在使圖像編碼器輸出哈希向量的元素值接近于0或1;
量化損失:
其中,I是維度為d且值為1的向量,N為訓練集中圖像數目,為圖像編碼器輸出的訓練集中第i張圖像的哈希向量,L表示哈希碼長度;
所述成對損失函數,旨在保證標簽表征相似的圖像對之間具有相似的哈希碼表征;成對損失:
其中,為圖像編碼器輸出的訓練集中第i張圖像的哈希向量,為圖像編碼器輸出的訓練集中第j張圖像的哈希向量,ti為訓練集中第i張圖像的已知標簽表征,tj為訓練集中第j張圖像的已知標簽表征,L表示哈希碼長度,N為訓練集中圖像數目;
所述鉸鏈損失函數,為了消除圖像和文本模態間語義鴻溝,鉸鏈損失迫使輸入匹配的圖像-標簽對的表征相近,反之亦然;
鉸鏈損失:
其中,θ3為Tanh激活函數,W3和b3為學習參數,的維數與標簽表征一致,m為預定義參數,ti為訓練集中第i張圖像的已知標簽表征,tj為訓練集中第j張圖像的已知標簽表征,N為訓練集中圖像數目;
所述辨別損失函數,迫使上下文強化的圖像表征xi準確地重新生成相應的標簽信息,從而確保圖像表征的區分性,同時提高圖像哈希表征的質量;
辨別損失:
其中,Lc為標簽數目,pic為第i個圖像包含第c個標簽的預測概率值,yic為真實標注結果,即第i個圖像包含第c個標簽,它的值為1,N為訓練集中圖像數目;
所述圖像編碼器的總的損失函數為:
L=λ1L1+L2+λ3L3+λ4L4
其中,λ1,λ3,λ4為平衡損失函數的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東建筑大學,未經山東建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011587005.0/1.html,轉載請聲明來源鉆瓜專利網。





