[發明專利]一種基于深度學習的跨模態檢索方法在審
| 申請號: | 202011215604.X | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112487822A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 顏成鋼;王超怡;孫垚棋;張繼勇;張勇東 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 跨模態 檢索 方法 | ||
1.一種基于深度學習的跨模態檢索方法,其特征在于包括如下步驟:
步驟1:數據的預處理,對訓練集的文本樣本進行預訓練;
步驟2:設計網絡結構模型;
網絡結構模型采用雙CNN同時進行:對于圖片樣本,通過DenseNet網絡提取圖片樣本的高級語義表示;對于文本樣本,先利用Word2Vec預訓練詞向量,再通過text CNN提取文本的高級語義表示;
步驟3:訓練網絡;將訓練集中的樣本輸入到編碼器進行特征提??;
步驟4:計算網絡的損失函數;
進行反向傳播,通過選定的優化器和相應參數對連接權重進行優化,訓練多輪后得到最終的網絡模型;
將損失函數設定為標簽信息空間的損失,公共空間中兩種模態下所有的樣本的辨別力損失以及模態不變性損失;其中利用了三元組損失以及直接測量的方法得到損失函數的目標函數;
步驟5:對網絡模型進行測試;將測試集的圖像文本輸入到訓練好的模型,得到預測的圖像文本的高級語義表示,通過計算得到的平均精度均值對模型進行評估。
2.根據權利要求1所述的一種基于深度學習的跨模態檢索方法,其特征在于雙層CNN結構,包含DenseNet圖片網絡和文本CNN網絡;利用DenseNet獲取4069維圖片樣本的向量;使用文本CNN獲取300維的句子向量;DenseNet的網絡結構主要由DenseBlock和Transition組成,DenseBlock采用DenseNet-B的結構,利用bootleneck層來減少計算量,在原有的結構中增加1x1Conv;Transition層,它主要是連接兩個相鄰的DenseBlock,并且降低特征圖大小,最終獲得4096維圖片高級語義特征向量然后進行公共表示學習得到每個圖片的公共表示;同樣,遵循多個完全連通的層來學習文本的公共表示;用U=[u1,u2,...,un],V=[v1,v2,...,vn]以及Y=[y1,y2,...,yn]來表示所有實例的圖像表示矩陣、文本表示矩陣和標簽矩陣。
3.根據權利要求2所述的一種基于深度學習的跨模態檢索方法,其特征在于強制這兩個子網絡共享最后一層權重,以確保這兩個子網絡為了學習圖像和文本模式的共同表示空間。
4.根據權利要求3所述的一種基于深度學習的跨模態檢索方法,其特征在于步驟4具體實現如下:
將損失函數設置為:標簽信息空間的損失、公共空間中兩種模態下所有的樣本的辨別力損失以及模態不變性損失;
標簽信息空間中的損失是指利用一個線性分類器預測投影在公共表示空間中的樣本的語義標簽,用來保持特征投影后不同類別樣本的區分性;
提出以下來衡量標簽信息空間中的損失:
其中||·||F表示Frobenius范數,P是線性分類器的投影矩陣,n是其所有的類別數;
此外利用三元組損失計算模態不變性損失公式;設定目標樣本ui為圖像Anchor,令vp為文本Positive樣本的距離比其他文本Negative樣本vn更為接近;計算公式如下:
其中||·||是為歐式距離,α指的是度量裕度;同理得到文本樣本為Anchor,圖片樣本為Positive以及Negative樣本的計算公式:
由此看出由三元組計算盡量減小圖像-文本對的距離,樣本模態不變性損失的目標函數為:
其中,N表示所有的類別數;
對于兩種模態下所有樣本在共同表征空間中的損失,采取直接測量,其中模態間樣本相似性的負對數似然計算方式為:
圖像模態間的計算方式:
文本模態間的計算方式為:
其中cos(·)是計算兩個向量之間相似性的余弦函數,1{·}是一個指示符類型的函數,如果這兩個元素是一類內的樣本的表示,那么它的結果為1,否則為0;
所以兩種模態下所有樣本在共同表征空間中的損失為:
結合方程⑴、⑷、⑻得到跨模態檢索損失函數的目標函數:
其中λ和μ是控制最后兩個分量貢獻的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011215604.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于膠黏制品的傳送清潔裝置
- 下一篇:一種煤氣發生爐出渣裝置





