[發明專利]基于圖嵌入學習的圖文跨模態檢索方法有效
| 申請號: | 201710478207.3 | 申請日: | 2017-06-21 |
| 公開(公告)號: | CN107273517B | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 顧曉東;張有才 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/43 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 嵌入 學習 圖文 跨模態 檢索 方法 | ||
本發明屬于多媒體信息檢索技術領域,具體為基于圖嵌入學習的圖文跨模態檢索方法。本發明首先提取圖片和文本的數據特征,然后建立一個圖文雙層的近鄰圖,通過近鄰圖及標簽信息以神經網絡的框架來學習得到嵌入層;通過嵌入層可以將圖片、文本兩個不同模態的數據映射到一個可以直接度量相似度的統一空間;相對現有方法線性投影的方式,可以更好的近似映射后的流行空間;在嵌入層,用戶可以直接檢索出與查詢樣本最相近的目標樣本,以此來實現圖文的跨模態檢索。本發明能有效地跨越了不同模態媒體之間的語義鴻溝,進而使得跨模態搜索引擎返回的結果更加準確。
技術領域
本發明屬于多媒體信息檢索技術領域,具體涉及基于圖嵌入學習的圖文跨模態檢索方法。
背景技術
當前的移動互聯網時代,由于智能移動終端的普及,每個人可以隨時隨地的發布與接收包括文本、圖片、視頻、音頻等在內的多種模態信息,這帶來了豐富的內容。然而,豐富的內容給我們帶來更多的往往是選擇的痛苦,獲取真正需求的信息變得愈發困難。在當前的Web3.0時代,豐富的信息需要經過精準的篩選呈現在用戶面前,對于檢索系統,需要以用戶為中心提供精準化的檢索與服務。而當前的檢索僅僅停留在單模態階段,當前主流搜索引擎,比如Google,可以做到用戶輸入文本返回系列圖片,但這種檢索依賴的是圖片本身標注好的文本信息,所以本質上仍然是以文本搜索文本的單模態檢索。在面向Web3.0時代的今日,傳統的單模態信息檢索已經不能滿足用戶對個性化信息的需求,我們希望做到“盲人摸象”,一個盲人摸到一個大耳朵,搜索一下便可知道摸的是頭大象。跨模態信息檢索實際應用性很強,比如,找到最匹配給定圖像的文本,給一段描述找到最適合的插圖等。因此,跨模態信息檢索技術有著重要的研究意義。
現有技術通過線性投影矩陣將不同模態的多媒體數據映射到統一子空間,然后在這個學習到的子空間里度量不同模態的多媒體之間的相似性,以此來實現跨模態檢索。但在當前如此復雜的數據背景下,線性投影直接刻畫映射空間并在此空間上度量相似度是不太現實的。
發明目的
針對于上述的狀況,本發明的目的在于提出一種可實現圖文的跨模態檢索,且效率高的基于圖嵌入學習的圖文跨模態檢索方法。
本發明的目的在于提出基于圖嵌入學習的圖文跨模態檢索方法,首先提取圖片和文本的數據特征,然后建立一個圖文雙層的近鄰圖,通過近鄰圖及標簽信息以神經網絡的框架來學習得到嵌入層;通過嵌入層可以將圖片、文本兩個不同模態的數據映射到一個可以直接度量相似度的統一空間;相對現有方法線性投影的方式,可以更好的近似映射后的流行空間。在嵌入層,用戶可以直接檢索出與查詢樣本最相近的目標樣本,以此來實現圖文的跨模態檢索。
本發明提出的基于圖嵌入學習的圖文跨模態檢索方法,分為如下三個步驟:
(1)收集圖片、文本數據樣本,建立圖文跨模態檢索數據庫,并分為訓練集與測試集,提取所述數據庫的特征,建立圖片、文本特征庫,根據特征信息建立圖文近鄰圖;
(2)通過圖片、文本訓練集的標簽信息及圖文近鄰圖的結構訓練學習得到嵌入層,該嵌入層作為可直接計算不同模態數據相似度的統一空間;
(3)對于查詢集中的一個圖片/文本數據,在嵌入層中計算相似度,根據多媒體數據之間的相似度,檢索得到與它最為相似的文本/圖片數據,從而達到圖文跨模態檢索效果。
本發明中,步驟(1)的操作流程如下:
(1)通過網絡爬蟲方式爬取維基百科,Flickr,Instagram,Facebook等主流網站的圖文數據,這些網站圖片種類豐富,并且對圖片具有深層語義的描述,選取其中一一對應的圖文描述,構建圖文跨模態檢索數據庫;
(2)根據實際需要將所述數據庫分為訓練集和測試集,比如可將所述數據庫中的80%的數據劃分為訓練集,剩下的20%的數據劃分為測試集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710478207.3/2.html,轉載請聲明來源鉆瓜專利網。





