[發明專利]一種基于深度自監督排序哈希的跨模態檢索方法有效
| 申請號: | 202010001846.2 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN113064959B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 荊曉遠;錢金星;吳飛;董西偉 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/953;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 監督 排序 跨模態 檢索 方法 | ||
1.一種基于深度自監督排序哈希的跨模態檢索方法,其特點在于,包括以下步驟:
(1)獲取訓練數據集,其中每個樣本都包括文本、圖像和標簽,使用的基準多模態數據集分別是Wiki,MIRFlickr和NUS-WIDE;
(2)利用標簽信息訓練標簽網絡;
(2.1)利用一個4層的全連接網絡,該全連接網絡的輸入層是實例的標簽,第二層具有4096個節點,使用Relu激活函數并進行局部歸一化;第三層具有512個節點,然后用Relu激活函數;第四層具有K*L+c個節點,K與編碼函數有關,L為哈希碼的長度,c為標簽的維度;
(2.2)第i個實例,使用三元組(vi,ti,li)來表示,li作為vi和ti的自監督語義信息,在標簽網絡中,語義特征通過非線性變化投影為對應的哈希碼,標簽網絡的損失函數為:
其中,θl是標簽網絡的參數,Fl是標簽網絡學習到的語義特征,Hl是標簽網絡預測出的哈希碼特征,是標簽網絡預測出的標簽,α,β和γ是超參;
(3)通過標簽網絡的語義特征指導圖像網絡進行特征學習;
(3.1)利用一個9層的神經網絡,其中前5層是卷積神經網絡,分別是第一層用64個大小為11*11的卷積核,步長是4,0邊距,然后用Relu激活函數,之后進行局部歸一化,最后使用傳統的2*2大小的模板做max pooling,第二層以第一層的輸出作為輸入,用256個5*5大小的卷積核,步長是1,padding是2,同樣用Relu激活函數,之后局部歸一化,最后2*2大小的max pooling;第三層、第四層和第五層相互連接,沒有中間的池化層或歸一化層;第三和四層,用256個3*3的卷積核,步長是1,padding是1,使用Relu激活函數;第五層用256個3*3的卷積核,步長是1,padding是1;使用2*2大小的max pooling,得到了尺寸為6×6×256的輸出特征;
(3.2)第6層和第7層都是全連接層,有4096個神經元,激活函數用Relu;第8層和第9層也是全連接層,分別具有512、K*L+c個節點,圖像網絡的目的是在語義特征的指導下學習圖像特征及保持對應哈希碼之間的相似關系,圖像網絡的損失函數為:
其中,θv是標簽網絡的參數,Fv是圖像網絡學習到的特征,Hv是圖像網絡預測出的哈希碼特征,是圖像網絡預測出的標簽,α,β和γ是超參;
(4)通過標簽網絡的語義特征指導文本網絡進行特征學習;
(4.1)采用一種多尺度融合模型,該模型由多個平均池化層和一個1×1的卷積層組成,多個平均池化層用于提取文本數據的多個比例特征;
(4.2)使用1×1卷積層融合多個特征,在多尺度融合模型后連接一個卷積層,該卷積層將多尺度融合模型的輸出投影為4096×1的文本特征;
(4.3)最后連接兩層全連接網絡,分別具有512、K*L+c個節點;文本網絡的損失函數為:
其中,θt是標簽網絡的參數,Ft是文本網絡學習到的特征,Ht是文本網絡預測出的哈希碼特征,是文本網絡預測出的標簽,α,β和γ是超參;
(5)根據設定的損失函數訓練標簽網絡、圖像網絡和文本網絡;
(6)使用基于排序的哈希函數進行編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010001846.2/1.html,轉載請聲明來源鉆瓜專利網。





