[發明專利]基于復合注意力的原始特征注入網絡的視覺問答方法有效
| 申請號: | 202110010417.6 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112905819B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 吳春雷;路靜;王雷全;吳杰;段海龍 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/538;G06F16/583;G06V10/44;G06V10/70;G06N20/00;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 復合 注意力 原始 特征 注入 網絡 視覺 問答 方法 | ||
本發明公開了基于復合注意力的原始特征注入網絡的視覺問答方法。以往的方法主要采用注意機制和密集的迭代操作進行細粒度匹配。然而,這些方法使得圖像區域的自相關信息被忽略,這將導致整體語義理解上的偏差。此外,我們注意到在多次雙邊共同注意力操作之后,圖像的一些有價值但不被關注的邊緣信息常常被完全忽視。本發明首次提出了基于復合注意力的原始特征注入網絡來研究圖像和問題之間的對應關系。設計一個具有復合注意的區域強化網絡,通過考慮區域間的關系,利用雙邊信息和自相關性,挖掘更完整的視覺語義并避免理解偏差。并提出原始特征注入模塊,恢復圖像有價值但不被關注的邊緣信息。本發明在VQA2.0上進行大量實驗證明了提出模型的有效性。
技術領域
本發明屬于視覺問答的方法,涉及計算機視覺和自然語言處理的技術領域。
背景技術
視覺問答在大多數研究中被表述為一個分類問題,圖像和問題作為輸入,答案作為輸出類別(由于可能答案的數量有限)。由于視覺問答任務是在深度學習方法得到廣泛普及后提出的,目前幾乎所有視覺問答解決方案都是使用CNN對圖像輸入進行建模,而使用RNN對問題進行建模。注意機制在視覺問答中得到了廣泛的研究。這包括視覺注意力,它專注于處理在哪里看的問題,以及問題注意力,它專注于解決在哪里閱讀的問題。由于圖像和問題是兩種不同的模態,因此將兩種模態聯合嵌入到一起以統一描述圖像/問題對是很簡單的。
現有模型的常見做法是分別提取視覺和語言特征,然后將它們合并到一個公共空間中。然后根據這些融合的雙峰特征預測輸入問題的答案。在早期研究中,研究人員采用了一些相對簡單的融合方法,例如特征向量的特征連接,相乘和點積。Fukui等人證明了更復雜的融合方法確實可以提高預測精度,因此他們引入了雙線性(合并)方法。在他們的工作中,將視覺和語言特征兩個向量的外積用于融合。由于外部輸出具有很高的尺寸特征,因此他們采用了Gao等人的概念。Gao等人壓縮了融合的特征,并將其命名為MCB合并方法。但是,為了確保性能穩定,MCB的壓縮特征仍然傾向于是高維的,Kim等人使用了兩個特征向量的Hadamard乘積來提出低秩雙線性池,稱為多峰低秩雙線性池(MLB)。Yu等人提出了一種多峰分解雙線性池(MFB),它使用矩陣分解技術來計算融合特征,從而減少了參數數量并提高了收斂速度。
注意力機制在許多視覺和語言處理任務中都是有效的,例如字幕生成,動作識別,自然語言處理等等。無一例外地將其引入視覺問答,并被證明對回答預測很有幫助。到目前為止,已經開發了許多方法,其中常用的是在圖像區域中引導注意力。根據圖像特征的類型,方法分為兩類。一方面,區域提案的視覺特征用于關注對象,這些注意力對象由邊框或區域提案網絡生成。從卷積特征中提取另一種視覺特征。
有幾種創建和使用注意力圖的方法。Yang等人開發了一個疊加式注意力網絡,該網絡以順序的方式在圖像上生成多個注意力圖,旨在執行多個推理步驟。Kim等人通過將其合并到剩余的體系結構中以產生更好的關注信息來擴展了此想法。Chen等人提出了一種結構化的注意力模型,該模型可以對跨區域的關系進行編碼,旨在正確回答涉及復雜區域之間的關系的問題。Duy-Kien Nguyen等人提出了著名的協同注意機制,以更好地融合圖像和疑問詞的表示形式。然而,現有的注意力模型主要考慮圖像區域和疑問詞之間的可能相互作用,而忽略了圖像區域本身的自相關信息。另外,一些網絡結構是多層迭代的,通常使得經過多次雙邊共同關注操作后,一些有價值但無人看管的原始圖像邊緣信息被完全遺忘了。
發明內容
本發明的目的是為了解決在基于堆疊注意力機制的視覺問答方法中,很少考慮圖像中不同區域的關系,對所有區域一視同仁。并且,過于關注問題詞與圖像區域的匹配,忽視了圖像有價值但不被關注的邊緣信息。
本發明為解決上述技術問題采取的技術方案是:
S1.構建視覺特征增強模塊,根據輸入圖像區域之間的相關性來挖掘更完整的視覺特征。
S2.結合S1中的強化特征,在整體的深層框架中利用圖像和問題雙邊信息生成特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110010417.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于低空拒止系統的低慢小飛行目標指定點誘騙方法
- 下一篇:一種智能斷路器





