[發明專利]基于弱監督哈希學習的多模態檢索方法及系統有效
| 申請號: | 202210250281.0 | 申請日: | 2022-03-15 |
| 公開(公告)號: | CN114329109B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 劉興波;張雪凝;聶秀山;王少華;尹義龍 | 申請(專利權)人: | 山東建筑大學 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/907;G06N20/10 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250101 山東省濟*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 多模態 檢索 方法 系統 | ||
本發明屬于大數據檢索技術領域,提供了基于弱監督哈希學習的多模態檢索方法及系統。為解決模態間配對信息不完整的情況的問題,該方法包括獲取待檢索樣本,將其進行哈希碼計算;將待檢索樣本的哈希碼與檢索數據庫中的哈希碼通過0/1異或運算,計算海明距離,并將以海明距離從小到大返回相似數據;檢索數據庫的構建過程為:基于模態內成對相似度、模態間成對相似度以及補全的各模態標簽信息,建立半監督半配對跨模態哈希的目標函數;通過優化半監督半配對跨模態哈希的目標函數獲取哈希表示,并從哈希表示中采樣,再將對應的部分跨模態相似度信息嵌入哈希函數學習中,最后利用嵌入的哈希函數生成檢索數據庫。其減少了計算復雜度且提高了檢索精度。
技術領域
本發明屬于大數據檢索技術領域,尤其涉及基于弱監督哈希學習的多模態檢索方法及系統。
背景技術
為了方便用戶從海量數據中快速檢索到對自己有用或感興趣的內容,互聯網的內容提供商不僅需要過濾重復、近似內容,還要對用戶搜索到的相似內容進行重新排序。此外,多媒體數據表征的異構性帶來了跨模態檢索需求,例如,一個網頁中既包含圖像內容,又包含文字信息,用戶可能需要以文本搜圖或以圖搜文本。因此,如何實現不同模態間的相似搜索成為互聯網企業在處理多媒體信號時面臨的一個新的挑戰。
與傳統的相似搜索方法如窮舉法、基于空間分割的方法相比,近似最近鄰(Approximate Nearest Neighbor, ANN)搜索憑借著其在實際應用中的高效性吸引了大量的關注。其中,跨模態哈希方法將高維原始特征映射為公共海明空間的二值碼,同時保持相似性,從而將相似搜索轉化為二值碼的按位異或運算,實現了檢索效率與精度間一個很好的平衡。現有的跨模態哈希方法,大多是針對監督信息完備的場景設計的,在這樣的場景中,標簽信息和模態間成對相似度都是完整的。然而,在現實應用中,由于網絡多媒體數據數量多、來源廣,不同模態數據間往往缺乏明確的一一對應關系,同時,由于對大規模數據進行人工標注代價較高,所以多媒體數據存在不同程度的標簽缺失問題。在上述弱監督場景下,現有的跨模態哈希方法得不到足夠的信息去構造模態間相似性。
針對弱監督場景,在已有的文獻和技術中存在的哈希檢索方法主要分為兩類,一類是半監督哈希,另一類是弱配對跨模態哈希。現有的弱監督場景的哈希檢索方法存在以下問題:(1)基于圖的半監督哈希方法采用標記傳播框架,能夠挖掘到潛在的標簽信息,但該框架也帶來了復雜的優化問題,且忽略了模態間配對信息不完整的情況。(2)弱配對跨模態哈希方法能夠處理不完整的模態間配對信息,但該類方法簡單地用模態內鄰域關系去近似模態間相似性,而沒有解決語義鴻溝的問題。
發明內容
為了解決上述背景技術中存在的技術問題,本發明提供基于弱監督哈希學習的多模態檢索方法及系統,其能夠同時保持模態內的相似結構信息和模態間語義關聯信息,具有訓練和檢索速度快、檢索性能高的特點。
為了實現上述目的,本發明采用如下技術方案:
為了解決上述背景技術中存在的技術問題,本發明提供基于弱監督哈希學習的多模態檢索方法及系統,其能夠充分挖掘和利用弱監督場景下有限的標簽信息和配對關系,在一定程度上削弱偽標簽中噪聲產生的負面影響,提升哈希學習的性能,減少計算復雜度的同時提高檢索精度。
為了實現上述目的,本發明采用如下技術方案:
本發明的第一個方面提供基于弱監督哈希學習的多模態檢索方法,其包括:
獲取待檢索樣本,并將其進行哈希碼計算;
將待檢索樣本的哈希碼與檢索數據庫中的哈希碼通過0/1異或運算,計算海明距離,并將以海明距離從小到大返回相似數據;
其中,所述檢索數據庫的構建過程為:
基于模態內成對相似度、模態間成對相似度以及補全的各模態標簽信息,建立半監督半配對跨模態哈希的目標函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東建筑大學,未經山東建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210250281.0/2.html,轉載請聲明來源鉆瓜專利網。





