[發明專利]基于雙向注意力的圖像文本互檢索方法有效
| 申請號: | 201910626468.4 | 申請日: | 2019-07-11 |
| 公開(公告)號: | CN110516085B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 劉靜;石雨佳 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/483 | 分類號: | G06F16/483;G06V10/74;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 雙向 注意力 圖像 文本 檢索 方法 | ||
本發明公開了一種基于雙向注意力的圖像文本互檢索方法,可用于電子文本和自然圖像互相檢索。本發明利用深度神經網絡初步提取自然圖像特征和電子文本特征,通過構建雙向注意力模塊,重構深度神經網絡初步提取的自然圖像特征和電子文本特征,重構后的特征包含更豐富的語義信息。本發明利用雙向注意力模塊改進傳統特征提取過程,得到含有更多圖像與文本語義信息的高階特征,實現圖像文本互檢索。
技術領域
本發明屬于圖像處理技術領域,更進一步涉及自然語言處理和計算機視覺交叉技術領域中的一種基于雙向注意力的圖像文本互檢索方法。本發明可用于挖掘自然圖像-電子文本兩種不同模態的深層聯系,提取自然圖像特征和文本特征,利用提取的特征計算自然圖像與電子文本的匹配概率,實現自然圖像-電子文本兩種不同模態之間的相互檢索。
背景技術
圖像文本互檢索目前存在兩種方法。一種構建相似度學習網絡,一種構建特征提取網絡。構建相似度學習網絡是利用相似度學習網絡學習兩類數據相似度并生成得分,選取得分最高的一組自然圖像與電子文本,完成相互檢索。構建特征提取網絡是利用特征提取網絡分別提取自然圖像和電子文本的高階特征,使用簡單的相似度計算公式計算特征間相似性,選取相似度最高的圖像文本對,完成相互檢索。神經網絡擁有多層網絡結構,能夠提取出數據的高階特征,常用于文本和圖像處理。注意力能夠在不同模態特征交互時捕獲交互后聯合特征,利用聯合特征對其他特征進行加權重構,充分挖掘交互信息的作用?;陔p向注意力的圖像文本互檢索方法的主要思想為:利用神經網絡對自然圖像和電子文本進行初步特征提取,構建雙向注意力模塊重構自然圖像和電子文本特征,利用重構后的特征計算自然圖像和電子文本匹配概率,完成相互檢索。
騰訊科技有限公司在其在其申請的專利文獻“圖像文本匹配模型的訓練方法、雙向搜索方法及相關裝置”(專利申請號:201710817344.5,公開號:CN 108288067 A)中提出了一種基于深度神經網絡的自然圖像與電子文本雙向檢索方法。該方法利用卷積神經網絡模型進行圖像特征提取和文本特征提取,再構建相似度衡量網絡計算特征相似度。該方法雖然能夠利用多層網絡提取自然圖像和電子文本的高階特征,但是,該方法仍然存在的不足之處是:自然圖片和電子文本屬于不同模態的數據,數據的異質性使得簡單的通過深度神經網絡進行特征提取難以準確表達圖像與文本的語義特征,進而難以衡量自然圖像與電子文本高階特征間相似性,影響檢索準確率。
S.Li,T.Xiao,H.Li,B.Zhou等人在其發表的論文“Person search with naturallanguage description”(International Conference on Computer Vision and PatternRecognition,2017:1970-1979)中提出了一種基于單向注意力的圖像文本檢索方法。該方法利用注意力將提取到的圖像特征加權到文本特征中,對文本特征進行重構,增強文本與圖像之間的相似性。該方法雖然能夠利用注意力重構電子文本特征,但是,該方法仍然存在的不足之處是:只是簡單地在重構電子文本特征時使用自然圖像對電子文本的單向注意力,由于自然圖像與電子文本存在對應關系,相互對應的高階特征間互相影響,僅僅重構電子文本特征而忽略自然圖像特征,使得自然圖像特征無法準確與電子文本特征對應,影響圖像文本互相檢索。
發明內容
本發明的目的在于針對上述現有技術存在的不足,提出一種基于雙向注意力的圖像文本互檢索方法,解決相同語義信息的自然圖像與電子文本的相互檢索問題。
實現本發明目的的思路是,利用注意力能夠在不同模態特征交互時捕獲交互后聯合特征,利用聯合特征對其他特征進行加權重構,充分挖掘交互信息的作用。通過構建雙向注意力模塊,重構深度神經網絡初步提取的自然圖像特征和電子文本特征,重構后的特征包含更豐富的語義信息。
本發明具體步驟包括有如下:
(1)生成訓練集和測試集:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910626468.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





