[發明專利]一種基于多粒度特征融合的跨模態檢索方法和系統在審
| 申請號: | 202210901615.6 | 申請日: | 2022-07-28 |
| 公開(公告)號: | CN115391625A | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 曹江中;張桂豪 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/908 | 分類號: | G06F16/908;G06K9/62 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 劉俊 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 粒度 特征 融合 跨模態 檢索 方法 系統 | ||
本發明公開了一種基于多粒度特征融合的跨模態檢索方法和系統,涉及圖文跨模態雙向檢索的技術領域,所述方法包括:獲取跨模態數據集,提取圖像數據的圖像細粒度特征和位置細粒度特征,提取文本數據的詞細粒度特征;將位置細粒度特征嵌入圖像細粒度特征,獲得的區域細粒度特征;將所有細粒度特征輸入跨模態檢索模型合成一個全局粗粒度特征,并進行多粒度特征融合,獲得視覺模態特征和文本模態特征;之后計算細粒度總和相似度和全局相似度,構建最終損失函數并進行優化,獲得訓練好的跨模態檢索模型,用于跨模態檢索。本發明克服了跨模態檢索方法存在的異構鴻溝,同時考慮了局部區域信息和全局信息,融合了多粒度特征,提高了跨模態檢索的準確率。
技術領域
本發明涉及圖文跨模態雙向檢索的技術領域,更具體地,涉及一種基于多粒度特征融合的跨模態檢索方法和系統。
背景技術
隨著深度學習技術的興起和來自互聯網的多模態數據爆發式增長,關于多模態數據與深度學習結合的研究逐漸成為近年來的研究熱點。然而,圖像視覺特征與文本特征本身并不存在天然聯系,視覺特征往往表示為原始的像素陣列,由三通道RGB值來記錄每個像素點的信息;而文本特征往往具有更高水平的含義,單個單詞一般用one-hot編碼來表示。這兩種形式的特征可能含義相同,但特征表示卻極為不同。因此,這兩種模態之間存在著異構鴻溝,使得模態之間難以匹配和檢索。跨模態檢索的研究為上述問題提供了解決方案,它通過學習兩種模態在公共子空間的特征表示,并縮小它們在公共子空間中的距離,來彌合不同模態間的異構鴻溝,從而實現跨模態檢索。早期的工作通過學習一個網絡,將整張圖片和整段句子這種粗粒度特征嵌入到公共子空間中來實現模態間的檢索。然而,粗粒度特征并不能很好的表達出局部區域細節這種高水平的語義關聯。近年來,基于局部對齊的細粒度方法逐漸成為研究熱點,大多數方法通過設計一個雙分支網絡,引導圖像區域和單詞在只有全局標簽、沒有局部標簽的情況下,以半監督的形式通過注意力機制將細粒度的信息進行對齊,并在許多方法實驗中取得較好的結果。但這種細粒度的方法將每一個通過目標檢測網絡提取的目標和每一個從句子中分離的單詞送入網絡中平等對待,忽略了局部區域重要性程度的差異性,同時也忽略了具有重要語義聯系的全局信息。所以,現有的跨模態檢索方法存在的問題在于模態間的異構鴻溝,即如何利用更多有效信息來提升模型的檢索性能,同時如何解決在模型訓練過程中伴隨著的過擬合問題。
現有技術公開了一種基于語義增強的跨模態檢索方法及裝置、存儲介質和終端,其中方法包括構建跨模態檢索模型,并基于圖文檢索數據訓練集對跨模態檢索模型進行訓練以獲取訓練后的跨模態檢索模型;確定目標查詢數據和目標模態數據集,基于訓練后的跨模態檢索模型獲取目標查詢數據與每個目標模態數據之間的整體語義相似度;在目標模態數據集中依據整體語義相似度從大到小的順序選取預設個數的整體語義相似度對應的目標模態數據,并確定檢索結果。該發明忽略了局部區域重要性程度的差異性,沒有利用更多有效信息來提升模型的檢索性能,檢索準確率不高。
發明內容
本發明為克服上述現有跨模態檢索方法存在的異構鴻溝導致檢索效果差的缺陷,提供一種基于多粒度特征融合的跨模態檢索方法和系統,克服了跨模態檢索方法存在的異構鴻溝,同時考慮了局部區域信息和全局信息,融合了多粒度特征,大大提高了跨模態檢索的準確率。
為解決上述技術問題,本發明的技術方案如下:
本發明提供了一種基于多粒度特征融合的跨模態檢索方法,包括:
S1:獲取跨模態數據集,所述跨模態數據集包含相互對應的圖像數據和文本數據;
S2:提取圖像數據的圖像細粒度特征和位置細粒度特征,提取文本數據的詞細粒度特征;
S3:將位置細粒度特征嵌入圖像細粒度特征中,獲得區域細粒度特征;
S4:將區域細粒度特征和詞細粒度特征輸入構建的跨模態檢索模型中,提取視覺模態特征和文本模態特征;
S5:根據視覺模態特征和文本模態特征計算局部細粒度相似度和細粒度總和相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210901615.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種軸承的密封裝置、軸承、輪轂及車輛
- 下一篇:一種芹菜根腐病菌的接種方法





