[發明專利]基于多角度自注意力機制的圖像-文本檢索系統及方法在審
| 申請號: | 201910134902.7 | 申請日: | 2019-02-24 |
| 公開(公告)號: | CN109992686A | 公開(公告)日: | 2019-07-09 |
| 發明(設計)人: | 張玥杰;李文杰;張濤 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/53 | 分類號: | G06F16/53;G06F16/535;G06F16/33;G06N3/04 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 嵌入 圖像 網絡 文本 獲取圖像 多模態 文本檢索系統 注意力 注意力機制 空間映射 神經網絡 雙向循環 訓練模塊 多階段 卷積 向量 公共數據集 單詞特征 關鍵區域 檢索技術 嵌入空間 區域特征 模態 單詞 句子 學習 | ||
本發明屬于跨模態檢索技術領域,具體為基于多角度自注意力機制的圖像?文本檢索系統及方法。系統包括:深度卷積網絡,雙向循環神經網絡,圖像、文本自注意力網絡,多模態空間映射網絡,以及多階段訓練模塊;深度卷積網絡用于獲取圖像區域特征在圖像嵌入空間的嵌入向量,雙向循環神經網絡用于獲取單詞特征在文本空間的嵌入向量,兩者分別輸入至圖像、文本自注意力網絡;圖像、文本自注意力網絡用于獲取圖像關鍵區域的嵌入表示和句子中關鍵單詞的嵌入表示;多模態空間映射網絡用于獲取圖像文本在多模態空間的嵌入表示;多階段訓練模塊用于學習網絡中的參數。本發明在公共數據集
技術領域
本發明屬于跨模態檢索技術領域,具體涉及基于多角度自注意力機制的圖像-文本檢索系統及方法。
背景技術
在各種多模態信息處理任務中,圖像和文本之間的跨模態分析與處理研究是眾多研究方向里非常重要的一項。具體包括圖像描述自動生成、及圖文互搜等任務。這里重點關注跨模態檢索,也就圖文互搜任務。圖文互搜就是輸入一幅圖像,需要找出與之語義最相似的K個句子。或者輸入一個句子,找到與之語義最相關的K幅圖像。圖文互搜是一項非常具有挑戰性的任務,因為其涉及到模式識別非常重要的兩個分支研究領域,即計算機視覺和自然語言處理。從計算機視覺的角度看,圖像描述的信息可涉及到中任何視覺內容如物體以及屬性等或者圖像中的完整場景,提取圖像的特征一般采用卷積神經網絡(ConvolutionalNeural Networks,CNN),提取圖像的特征一般采用卷積神經網絡,如VGG、ResNet等,但提取的特征粒度比較粗。從自然語言處理角度來看,如何對句子進行編碼以表示出語義特征也是一個具有挑戰性的問題。傳統方法多采用詞袋模型來量化表示句子,這樣處理的優點是簡單直接,缺點是忽略句子中單詞之間的順序依賴信息。循環神經網絡(Recurrent NeuralNetwork,RNN)是一種新型的神經網絡方法,該方法通過循環網絡可以學習到詞與詞之間的序列依賴信息,相比詞袋模型信息量更多。RNN最后一個時刻的隱層輸出可以作為句子特征表示,但屬于粗粒度的句子特征表示。
圖文檢索模型一般分別對圖像(如采用CNN)和文本(如采用RNN)進行編碼,然后利用目標函數將圖像空間和文本空間盡可能地融合。之后,即可通過向量內積來進行相似度的計算,一般使用Pairwise Ranking損失函數進行訓練,即文本與匹配圖像的相似度要比與不匹配圖像的相似度高一個邊緣,圖像與匹配文本的相似度要比與不匹配文本的相似度高一個邊緣。Faghri等人[5]又針對難例的優化進行改善,難例的優化在于讓一幅圖像與正樣本文本的相似性比最不好區分的負樣本文本之間的相似性大一個邊緣,針對文本對應的正樣本圖像和負樣本圖像也是如此。
盡管現有工作在圖像-文本檢索任務上已取得不小突破,但總體而言,基于基礎的CNN+RNN模型還處于一個“粗糙”的起始階段,檢索出來的圖像(文本)和被查詢文本(圖像)還有一些差異,優化方法仍存在改善空間。
發明內容
本發明為克服現有CNN+RNN模型在圖像-文本檢索技術上所提取的特征不夠細致、以及優化方法的缺陷,提供一種基于多階段訓練多角度自注意力機制的圖像-文本檢索系統及方法。
本發明提供的基于多階段訓練多角度自注意力機制的圖像-文本檢索系統,包括:深度卷積網絡,雙向循環神經網絡,圖像自注意力網絡,文本自注意力網絡,多模態空間映射網絡,及多階段訓練模塊;所述深度卷積網絡用于獲取圖像區域特征在圖像嵌入空間的嵌入向量,并輸入至圖像自注意力網絡;所述雙向循環神經網絡用于獲取單詞特征在文本空間的嵌入向量,并輸入至文本自注意力網絡;所述圖像自注意力網絡用于獲取圖像關鍵區域的嵌入表示;所述文本自注意力網絡用于獲取句子中關鍵單詞的嵌入表示;所述多模態空間映射網絡用于獲取圖像文本的在多模態空間的嵌入表示;所述多階段訓練模塊用于學習網絡中的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910134902.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





