[發明專利]基于圖卷積神經網絡的零樣本草圖圖像檢索方法和系統有效
| 申請號: | 202010077162.0 | 申請日: | 2020-01-24 |
| 公開(公告)號: | CN111291212B | 公開(公告)日: | 2022-10-11 |
| 發明(設計)人: | 張玥杰;張兆龍 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖卷 神經網絡 樣本 草圖 圖像 檢索 方法 系統 | ||
1.一種基于圖卷積神經網絡的零樣本草圖圖像檢索方法,其特征在于,包括:
步驟一、草圖和圖像預處理:從草圖-圖像數據集中采集草圖-圖像對,將其轉化為張量數據格式,并進行歸一化處理,構建草圖-圖像訓練集;
步驟二、草圖和圖像特征生成:使用深度學習方法提取草圖和圖像深度視覺特征;
步驟三、基于圖卷積神經網絡的草圖-圖像融合特征生成:利用圖卷積神經網絡同時對視覺信息和語義信息進行處理,得到更具判別性的融合特征;
步驟四、語義信息重構:利用條件變分自編碼器從視覺信息中重新生成語義信息,確保得到的融合視覺信息保持原有語義信息,提高模型泛化能力;
步驟五、構建損失函數指導模型訓練:通過多種損失函數,使模型提取到的深度視覺特征更具判別性;
所述步驟三包括:
步驟3.1、對每批草圖-圖像對構建全連接圖,得到圖節點的特征向量;
步驟3.2、利用草圖-圖像視覺信息和標簽語義信息得到邊信息,構建鄰接矩陣;
步驟3.3、根據圖卷積神經網絡的更新公式,對節點信息進行更新;
步驟3.1中,對應批大小為B的草圖圖像數據,構建的圖大小為B×B;節點特征向量hi由草圖特征向量與圖像特征向量拼接而成:
步驟3.2中,標簽語義信息由標簽在GloVe中的300維詞向量表示;鄰接矩陣中的每個元素aij表示節點hi和節點hj之間的相似度信息,其計算公式為:
其中,為計算節點間距離的函數,由多層感知機建模,并同時考慮節點的視覺信息和語義信息;
步驟3.3中,圖卷積神經網絡更新按照如下公式進行:
其中,H(l)和W(l)為圖卷積神經網絡第l層中的特征矩陣和可學習參數;σ為非線性激活函數如ReLU;為鄰接矩陣A的正則化,其計算公式為
2.根據權利要求1所述的圖像檢索方法,其特征在于,所述步驟一包括:
步驟1.1、利用PIL庫讀取草圖-圖像數據,并將其轉換為張量數據格式;
步驟1.2、將由上面步驟得到的張量數據進行歸一化處理。
3.根據權利要求2所述的圖像檢索方法,其特征在于,所述步驟二使用ResNet模型提取草圖和圖像的深度視覺特征;對于草圖和圖像,使用孿生網絡架構,并用在ImageNet上預訓練的ResNet50提取每一張草圖和圖像的深度特征,兩個孿生網絡并未共享參數。
4.根據權利要求1所述的圖像檢索方法,其特征在于,所述步驟四包括:
步驟4.1、將視覺特征映射到隱空間,得到隱變量;
步驟4.2、將隱變量解碼為語義信息;
步驟4.1中,編碼器利用參數重構的思想,分別將視覺特征映射為隱變量的均值μ和方差σ:
μ=Wμxgcn (4)
logσ=Wσxgcn (5)
其中,Wμ和Wσ分別為兩個編碼器的參數,接著將均值μ和方差σ與一個標準正太分布變量結合,得到隱變量z=μ+σ×∈,符合均值為μ、方差為σ的正態分布;
步驟4.2中,解碼器在視覺信息條件下,將隱變量解碼為語義信息:
5.根據權利要求4所述的圖像檢索方法,其特征在于,步驟五中共有4個損失函數,分別為分類損失特征損失語義損失和KL散度損失將其結合成整體損失函數
其中,λi(i=1,2,3)為平衡調節因子;整體損失函數對模型進行約束和優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010077162.0/1.html,轉載請聲明來源鉆瓜專利網。





