[發明專利]一種兩級網絡的圖像文本跨媒體檢索方法有效
| 申請號: | 201910355345.1 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110059217B | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 李志欣;凌鋒;張燦龍;周韜 | 申請(專利權)人: | 廣西師范大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/58;G06F16/33 |
| 代理公司: | 桂林市持衡專利商標事務所有限公司 45107 | 代理人: | 陳躍琳 |
| 地址: | 541004 廣西壯*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 兩級 網絡 圖像 文本 媒體 檢索 方法 | ||
本發明公開一種兩級網絡的圖像文本跨媒體檢索方法,首先通過構建了跨媒體兩級網絡來探索兩級對齊,它分別包含兩個用于全局,局部的子網。接著利用訓練數據集來對跨媒體兩級模型進行訓練,以確定跨媒體兩級模型中的網絡參數,由此得到訓練好的跨媒體兩級模型。最后,利用該訓練好的跨媒體兩級模型對待檢索圖像和待檢索文本進行相似度檢索。實驗表明,本發明在跨媒體檢索的應用上達到了不錯的效果。
技術領域
本發明涉及計算機跨媒體檢索領域,具體涉及一種兩級網絡的圖像文本跨媒體檢索方法。
背景技術
跨媒體既表現為包括網絡文本、圖像、音頻、視頻等復雜媒體對象混合并存,又表現為各類媒體對象形成復雜的關聯關系和組織結構,還表現在具有不同模態的媒體對象跨越媒介或平臺高度交互融合。通過“跨媒體”能從各自的側面表達相同的語義信息,能比單一的媒體對象及其特定的模態更加全面地反映特定的內容信息。相同的內容信息跨越各類媒體對象交叉傳播與整合,只有對這些多模態媒體進行融合分析,才能盡可能全面、正確地理解這種跨媒體綜合體所蘊涵的內容信息。本文研究了經典的圖像-文本匹配問題,它是圖像-句子跨模態檢索(即對給定的具有視覺描述的句子進行圖像搜索,從圖像查詢中檢索句子)的核心。由于不同模態的特征通常具有不一致的分布和表示,因此需要彌合模態差距,即需要找到方法來評估跨模態的項的語義相似性。
一種簡單的學習方法是:建立一個公共子空間,然后將所有數據投影到該空間。比如早期的典型相關分析(Canonical Correlation Analysis,CCA)方法,通過線性函數盡可能的將成對出現的圖像和文本數據投影到公共子空間的同一位置。通過改進投影方式以及變換投影空間,CCA方法可以輕易擴展到多種媒體形式的聯合分析。主題模型是另外一種常用的表示方法,比如經典的潛在狄里克雷分布(Latent Dirichlet Allocation,LDA)模型。LDA假設不同形式的媒體信息由相同的多個主題生成,于是目標的相似度可以通過指定主題下的生成概率來計算。還有基于圖形的方法,通過最大化交叉模態成對項目相關性或項目分類準確性來學習線性投影以生成共同表示。深度神經網絡的興起也很快蔓延到跨媒體信息表達領域。如利用深度學習改進特征提取和度量方式,拉近同類目標距離時拉遠不同類間距離,特別是在學習公共子空間時利用非線性相關等等。然而,對于一種模態中的一個項目,可能存在多個具有相同模態的語義上不同的項目,僅簡單的通過公共子空間的來匹配表示是遠遠不夠的,還需要更好的網絡模型來匹配表示。
發明內容
本發明提供一種兩級網絡的圖像文本跨媒體檢索方法,通過交叉模式檢索研究的核心是學習到圖像和文本較好的語義表示,其中不同形態的項目可以直接相互檢索,以實現跨不同模態的靈活檢索體驗。
為解決上述問題,本發明是通過以下技術方案實現的:
一種兩級網絡的圖像文本跨媒體檢索方法,包括如下步驟:
步驟1、構建跨媒體兩級模型階段:
所構建的跨媒體兩級模型包括全局生成對抗網絡和局部跨媒體注意網絡;
步驟2、訓練數據集的獲取階段:
步驟2.1、從現有圖像文本跨媒體的數據集中獲取原始圖像和原始文本,并將所獲取原始圖像和原始文本中相互對應的1個原始圖像和1個原始文本形成圖像文本對;
步驟2.2、對每個圖像文本對中的原始圖像和原始文本分別附上不同的模態標簽,由此得到訓練數據集;
步驟3、跨媒體兩級模型進行訓練階段:
步驟3.1、利用圖像文本對跨媒體兩級模型中的全局生成對抗網絡進行訓練;
步驟3.1.1、先將圖像文本對中的原始圖像輸入到全局卷積神經網絡中進行圖像的特征提取訓練,再將所提取到的圖像的特征送入到全局圖像全連接網絡中進行降維訓練,以訓練出該原始圖像的圖像全局表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西師范大學,未經廣西師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910355345.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





