[發明專利]基于受限文本空間的對抗性跨媒體檢索方法有效
| 申請號: | 201810101127.0 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108319686B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 王文敏;余政;王榮剛;李革;王振宇;趙輝;高文 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/58;G06F16/28;G06N3/08 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 518055 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 受限 文本 空間 對抗性 媒體 檢索 方法 | ||
本發明公布了一種基于受限文本空間的對抗性跨媒體檢索方法,設計特征提取網絡、特征映射網絡和模態分類器,通過學習得到受限文本空間,提取適用于跨媒體檢索的圖像和文本特征,實現圖像特征從圖像空間到文本空間的映射;通過對抗性訓練機制使得學習過程中不斷減小不同模態數據之間特征分布的差異性;由此實現跨媒體檢索。本發明能夠更好地擬合人類在跨媒體檢索任務中的行為表現;得到更適用于跨媒體檢索任務的圖像和文本特征,彌補了預訓練特征在表達能力上的欠缺;引入對抗性學習的機制,通過模態分類器與特征映射網絡之間的最大最小博弈,進一步提升了檢索準確率。
技術領域
本發明涉及計算機視覺技術領域,尤其涉及一種基于受限文本空間的對抗性跨媒體檢索方法。
背景技術
隨著Web 2.0時代的來臨,大量多媒體數據(圖像,文本,視頻,音頻等)開始在互聯網上積累和傳播。與傳統的單一模態檢索任務不同,跨媒體檢索用于實現不同模態數據之間的雙向檢索,比如文本檢索圖像和圖像檢索文本。然而,由于多媒體數據先天具有的異構特性,它們的相似性并不能被直接衡量。因此,該類任務的核心問題是如何找到一個同構的映射空間,使得異構的多媒體數據之間的相似性能夠被直接衡量。在當前跨媒體檢索領域中,人們在此問題的基礎上進行了大量的研究,并且提出了一系列典型的跨媒體檢索算法,比如CCA(Canonical Correlation Analysis,典型相關分析)、DeViSE(Deep Visual-Semantic Embedding,深度視覺語義嵌入)和DSPE(Deep Structure-Preserving Image-Text Embeddings,深度結構不變文本圖像嵌入模型)。但是,這些方法也存在一定的缺陷。
第一個缺陷體現在多媒體數據的特征表示上。現有的方法大都采用預訓練的CNN(Convolutional neural network)模型來提取圖像特征,比如VGG(Visual GeometryGroup提出的神經網絡結構)。然而,這些模型通常都是在圖像分類任務上進行預訓練,這也就導致了提取得到的圖像特征只包含物體的類別信息,從而損失了一部分對于跨媒體檢索來說可能是很重要的信息,比如物體的行為動作以及物體之間的交互過程等等。對于文本來說,Word2Vec,LDA(Latent Dirichlet Allocation)和FV(Fisher Vector)都是一些主流的文本特征提取方法。然而,它們也是在一些不同于跨媒體檢索的數據集上進行預訓練,因此提取到的特征并不適用于跨媒體檢索。
第二個缺陷體現在同構特征空間的選擇上。同構空間的選擇大致有三種,分別是公共空間,文本空間和圖像空間。從人類認知的角度來看,大腦對于文本和圖像的理解過程不盡相同。對于文本,大腦可以直接提取特征并理解;而對于一張圖像,大腦在理解之前總是會下意識地先用文本來描述它,即先從圖像空間轉換至文本空間。因此,在文本空間進行跨媒體檢索更能模擬人類的認知方式。現有的基于文本空間的跨媒體檢索方法大都采用Word2Vec空間作為最終的文本空間,圖像在該空間的特征表示則是通過圖像中物體的類別信息組合得到的。因此該特征同樣會丟失圖像中蘊含的豐富的動作和交互的信息,這也表明對于跨媒體檢索來說,Word2Vec空間并不是一個有效的文本特征空間。
第三個缺陷體現在不同模態數據特征分布的差異性上。盡管現有的方法都會將不同模態的數據特征映射至某一同構的特征空間,但它們之間的模態鴻溝(modality gap)仍然存在,并且特征分布也存在明顯的差異,這會導致跨媒體檢索性能的下降。
發明內容
為了克服上述現有技術的不足,本發明提供一種基于受限文本空間的對抗性跨媒體檢索方法,首先通過學習得到與跨媒體檢索任務相對應的圖像和文本特征描述,其次通過模擬人類的認知方式找到一個受限文本空間,用于實現圖像和文本之間的相似度衡量;該方法還引入了對抗性訓練機制,旨在減少文本空間學習過程中不同模態數據之間特征分布的差異性,進而增加了檢索準確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810101127.0/2.html,轉載請聲明來源鉆瓜專利網。





