[發明專利]一種基于自監督的跨模態深度哈希檢索方法有效
| 申請號: | 201910599265.0 | 申請日: | 2019-07-04 |
| 公開(公告)號: | CN110309331B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 王軒;漆舒漢;李逸凡;蔣琳;廖清;劉洋;夏文;李化樂;吳宇琳;賈豐瑋 | 申請(專利權)人: | 哈爾濱工業大學(深圳) |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51;G06F16/583;G06F16/31;G06F16/33;G06K9/62 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 黎健任 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 跨模態 深度 檢索 方法 | ||
本發明專利涉及一種基于自監督的跨模態聯合哈希檢索方法,該方法包括以下步驟:步驟1:針對圖像模態數據進行處理:采用深度卷積神經網絡對圖像模態的數據進行特征提取,對圖片數據進行哈希學習,將深度卷積神經網絡的最后一層全連接層的節點個數設置為哈希碼的長度;步驟2:針對文本模態數據進行處理:使用詞袋模型對文本數據進行建模,建立一個兩層的全連接神經網絡對文本模態的數據進行特征提取,神經網絡的輸入是使用詞袋模型表示的詞向量,第一個全連接層節點的數據與第二個全連接層節點的數據與哈希碼的長度相同;步驟3:針對類別標簽處理的神經網絡:采用自監督的訓練方式從標簽數據中提取語義特征;步驟4:最小化圖像與文本網絡所提取的特征與標簽網絡的語義特征間的距離,使得圖像與文本網絡的哈希模型能夠更充分學習不同模態間的語義特征。
技術領域
本發明屬于一種跨模態深度哈希檢索技術領域,特別涉及一種基于自監督的跨模態深度哈希檢索方法。
背景技術
人工智能技術自誕生以來經歷了多次的爆發期與寒冬期,而這次人工智能技術的爆發更加來勢洶洶,因為與之前幾次的爆發相比,具有一個鮮明的特點——以大數據為基礎。大數據不僅僅是因其數據量大,更重要的是其數據種類具有多樣性,且數據的價值密度較低。我們每天都會產生和接收各種信息,而這些信息都會被記錄下來,然后通過各種人工智能技術來分析我們的日常行為、生活習性,以便為我們的生活提供各種便利性的服務。在海量的多媒體數據之中,有些數據并不是相互獨立的,它們很可能是對同一事物的不同表現方式的描述,在語義上具有一定的相似性。如何從這些不同類型的數據中檢索到所需的數據是一個充滿挑戰的問題,也逐漸得到了學術界的廣泛關注,這就是跨模態檢索。
跨模態檢索的適用范圍比單模態檢索要廣,其以任一種模態的數據作為被查詢的示例,從海量的多媒體數據庫中查詢與之具有語義相關性的其他模態的數據。跨模態檢索本質是跨越多種模態信息間描述方式上的鴻溝,通過子空間學習,將它們映射到同一維度空間上進行度量,以此把語義表達上具有相似性的不同模態間的數據聯系起來,達到可以只用一種模態的數據就檢索出其他模態數據的目的。
目前基于哈希的跨模態檢索方法通常關注于如何對不同模態的數據(例如圖像和文本)進行特征提取,再將不同模態的數據特征映射到一個共同的子空間中,再通過一定的度量手方法(例如漢明距離)來形式化表示各種數據間的相似性。但這些方法都忽略了最重要的標簽數據的語義價值,僅僅使用標簽數據生成相似性矩陣,沒有充分利用標簽數據描述更細粒度的標簽信息,更準確的描述所屬的類別數據。同時,因為現有的數據集中存在數據不平衡問題,即不同模態中相似的數據量遠小于不相似的數據量,而現有的方法沒有對數據不平衡問題進行處理,容易導致訓練不充分甚至過擬合的情況。同時,因為需要生成哈希碼來表示各種模態的數據,現有的方法大都在神經網絡的最后一層添加sigmoid函數將其輸出壓縮到0和1之間,再通過符號函數生成離散的二值碼,但sigmoid函數本身在反向傳播時極易導致神經網絡出現梯度消失的狀況,而且直接將神經網絡的輸出數值壓縮到0和1之間后,無論是對圖像還是文本數據都會造成一定的信息損失。
針對上述問題,本發明首先設計了一種自監督的跨模態哈希方法,能針對類別標簽數據進行特征提取,使模型能夠對數據的語義相關性進行建模,幫助圖像與文本數據的特征分布趨于一致,讓模型更準確地學習出不同模態數據之間的語義相似度;同時,針對現有數據集中存在的數據不平衡問題,設計了自適應權重的損失函數,能夠根據每次輸入神經網絡的訓練樣本中正負樣本的比例,自動調整對正負樣本的懲罰的權重;最后使用一個設計好的二值約束項直接對網絡的輸出進行二值化處理,替換掉sigmoid函數,避免訓練過程中的梯度消失狀況。
發明內容
為克服已有技術的不足之處,本發明提出基于自監督的跨模態深度希哈檢索方法,以避免訓練過程中的梯度消失狀況。
為達到此目的,本發明采用以下技術方案:
一種基于自監督的跨模態聯合哈希檢索方法,該方法包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳),未經哈爾濱工業大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910599265.0/2.html,轉載請聲明來源鉆瓜專利網。





