[發(fā)明專利]一種基于深度自監(jiān)督排序哈希的跨模態(tài)檢索方法有效
| 申請?zhí)枺?/td> | 202010001846.2 | 申請日: | 2020-01-02 |
| 公開(公告)號: | CN113064959B | 公開(公告)日: | 2022-09-23 |
| 發(fā)明(設計)人: | 荊曉遠;錢金星;吳飛;董西偉 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/953;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 監(jiān)督 排序 跨模態(tài) 檢索 方法 | ||
本發(fā)明提出了一種基于深度自監(jiān)督排序哈希的跨模態(tài)檢索方法。包括以下步驟:首先學習一個標簽網(wǎng)絡用來保留語義特征與其對應的哈希碼之間的相似關系。該標簽網(wǎng)絡可以有效地利用多標簽信息來橋接不同模態(tài)之間的語義相關性。然后分別對圖像和文本設計一個端到端的特征學習網(wǎng)絡,進行特征學習。一方面,可以保持標簽網(wǎng)絡和圖像文本網(wǎng)絡之間的語義相關性。另一方面,可以使學習到的特征與特定的跨模態(tài)檢索任務完美兼容。為了解決使用二進制分區(qū)函數(shù)編碼對分區(qū)閾值十分敏感的問題,采用基于排序的編碼函數(shù)。每個維度的相對排序不變,哈希編碼的值就不變,這使得哈希函數(shù)不會對某些閾值非常敏感,進而獲取的哈希編碼魯棒性更好。
技術領域
本發(fā)明涉及模式識別,具體涉及一種基于深度自監(jiān)督排序哈希的跨模態(tài)檢索方法。
背景技術
由于各種搜索引擎和社交媒體上的多媒體數(shù)據(jù)爆炸式增長,近年來跨模態(tài)檢索已成為一個引人注目的話題。跨模態(tài)檢索旨在用來自一個模態(tài)(例如文本)的數(shù)據(jù)來搜索另一種模態(tài)(例如圖像)中的語義上相似的實例。由于來自不同模態(tài)的數(shù)據(jù)通常具有不可比較的特征表示和分布,因此有必要將它們映射到一個公共的特征空間。為了滿足實際應用中低存儲成本和高查詢速度的要求,哈希在跨模態(tài)檢索領域備受關注。它將高維多模態(tài)數(shù)據(jù)映射到公共的漢明空間,得到哈希碼后僅通過異或運算就可以計算多模態(tài)數(shù)據(jù)之間的相似度來檢索,相比于非哈希檢索方法,哈希方法的檢索速度要快得多。
目前跨模態(tài)檢索已經(jīng)有了很大的發(fā)展,很多淺層跨模態(tài)哈希檢索方法被提出,這些淺層方法都是基于手工制作的特征進行哈希學習,它們的一個共同缺點是手工特征制作過程和哈希學習過程是完全獨立的,進而手工制作的特征可能與哈希學習的過程無法完全兼容。導致檢索性能不理想的另一個原因是大多數(shù)現(xiàn)有的深度哈??缒B(tài)檢索方法丟棄數(shù)據(jù)的完整標簽,只使用跨模態(tài)相似性矩陣進行有監(jiān)督學習,這樣學習到的哈希編碼缺少語義信息,不夠準確。另外,大多數(shù)跨模態(tài)檢索方法使用二進制空間分區(qū)函數(shù)進行編碼,這種編碼函數(shù)會產(chǎn)生較大的編碼誤差,也會導致檢索性能變差。
發(fā)明內(nèi)容
發(fā)明目的:針對現(xiàn)有技術存在的問題,提出一種基于深度自監(jiān)督排序哈希的跨模態(tài)檢索方法,是一種端到端的深度跨模態(tài)哈希方法,使用實例的標簽信息學習實例的語義特征,并用學習到的語義特征監(jiān)督圖像和文本的特征學習。編碼函數(shù)使用基于排序的編碼函數(shù)來的得到魯棒性更好的哈希碼。。
技術方案:一種基于深度自監(jiān)督排序哈希的跨模態(tài)檢索方法,包括以下步驟:
(1)獲取訓練數(shù)據(jù)集,其中每個樣本都包括文本、圖像和標簽,使用的基準多模態(tài)數(shù)據(jù)集分別是Wiki,MIRFlickr和NUS-WIDE;
(2)利用標簽信息訓練標簽網(wǎng)絡;
(3)通過標簽網(wǎng)絡的語義特征指導圖像網(wǎng)絡進行特征學習;
(4)通過標簽網(wǎng)絡的語義特征指導文本網(wǎng)絡進行特征學習;
(5)根據(jù)設定的損失函數(shù)訓練標簽網(wǎng)絡、圖像網(wǎng)絡和文本網(wǎng)絡;
(6)使用基于排序的哈希函數(shù)進行編碼。
進一步地,步驟(2)所述的利用標簽信息訓練標簽網(wǎng)絡的具體流程是:
(2.1)利用一個4層的全連接網(wǎng)絡,該神經(jīng)網(wǎng)絡的輸入層是實例的標簽,第二層具有4096個節(jié)點,使用Relu激活函數(shù)并進行局部歸一化;第三層具有512個節(jié)點,然后用Relu激活函數(shù);第四層具有K*L+c個節(jié)點,K與編碼函數(shù)有關,L為哈希碼的長度,c為標簽的維度;
(2.2)第i個實例,使用三元組(vi,ti,li)來表示,li作為vi和ti的自監(jiān)督語義信息。在標簽網(wǎng)絡中,語義特征通過非線性變化投影為對應的哈希碼。標簽網(wǎng)絡的損失函數(shù)為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經(jīng)南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010001846.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





