[發明專利]基于復合注意力的原始特征注入網絡的視覺問答方法有效
| 申請號: | 202110010417.6 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112905819B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 吳春雷;路靜;王雷全;吳杰;段海龍 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/538;G06F16/583;G06V10/44;G06V10/70;G06N20/00;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266580 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 復合 注意力 原始 特征 注入 網絡 視覺 問答 方法 | ||
1.基于復合注意力的原始特征注入網絡的視覺問答方法,其特征在于,所述方法包括以下步驟:
S1.構建視覺特征增強模塊,根據輸入圖像區域之間的相關性來挖掘更完整的視覺特征;
S2.結合S1中的強化特征,在整體的深層框架中利用圖像和問題雙邊信息生成特征;
S3.構建原始信息注入模塊,恢復圖像有價值但不被關注的邊緣信息;
S4.結合S2中的網絡和S3中的網絡構建基于復合注意力的原始特征注入網絡架構;
所述S1的具體過程為:
視覺特征增強模塊根據輸入圖像區域之間的相關性來挖掘更完整的視覺特征,通過考慮圖像中區域與區域之間的關聯度,從而降低整體語義理解上的偏差,我們在下面描述詳細的操作:
給定一個特征分別通過3個1*1的卷積核生成Fq,Fk,Fv:
Fq=WqF,Fk=WkF,Fv=WvF (1)
其中是1*1卷積核的權重矩陣,H=2048;
由Fq,Fk計算出F的注意力FA:
FA=softmax(FqTFk) (2)
其中FqT表示矩陣的轉置,softmax()指的是softmax函數;
再令Fv與FA相乘后經過平均池化層得到FA':
FA'=mp(FvFAT) (3)
其中mp()指的是meanpoling函數;
最后,通過FA'和F相加得到視覺特征增強模塊的輸出:
Fs=WsFA’+F (4)
其中Ws是權重矩陣,其維數是2048*2048;該方法將圖像區域根據它們的語義相關性設置為不同的優先級;根據需要將區域增強模塊重復用于不同級別的表示增強;
所述S2的具體過程為:
復合注意機制,在一個整體的深層框架中更好地利用圖像和問題的雙邊信息和自相關性,它實現了視覺特征增強模塊和協同注意力結構的結合;
問題文本的特征Tl和圖像的特征Il被輸入到復合注意力處理模塊中;同時,Il也被發送到視覺特征增強模塊以計算圖像區域的相關性,對應的輸出表示為Ils,由下式給出:
Ils=SI(Il) (5)
其中SI()表示視覺特征增強模塊函數;
再將生成的Ils和文本特征Tl作為協同注意力的輸入,生成考慮到雙邊信息的數據,Tlsc和Ilsc:
[Tlsc,Ilsc]=CoA([Tl,Ils]) (6)
其中CoA()是協同注意運算符;
從視覺特征的角度來看,在結合了Ils和Tlsc之后,經過線性操作生成與Ils維度相同的圖像特征信息Ilc:
Ilc=linearI(concat(Ils,Tlsc)) (7)
同理,對于問題特征,將Tls與Ilsc結合后,經過線性操作生成與Tl維度相同的圖像特征信息Tlc:
Tlc=linearT(concat(Tls,Ilsc)) (8)
其中linear()是線性運算,其中包含1024個具有ReLU非線性和Dropout的隱藏單元;
所述S3的具體過程為:
原始信息注入模塊的目的是恢復圖像邊緣信息,約束圖像原始信息的語義偏差,從而幫助模型正確理解圖像;具體地說,在經過S2后得到視覺特征Ilc和和語言特征Tlc分別與原始特征Ir和Tr結合后,經過線性操作生成與Ilc和Tlc維度相同的圖像特征信息Ilcr和Tlcr:
Ilcr=linearI(concat(Ilc,Ir)) (9)
Tlcr=linearT(concat(Tlc,Tr)) (10)
其中linear是一個Linear函數,它具有1024個具有ReLU非線性和dropout的隱藏單元。
2.根據權利要求1所述的基于復合注意力的原始特征注入網絡的視覺問答方法,其特征在于,所述S4的具體過程為:
所述的基于復合注意力的原始特征注入網絡的視覺問答方法包含一個視覺特征增強模塊、一個復合注意力模塊和一個原始信息注入模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110010417.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于低空拒止系統的低慢小飛行目標指定點誘騙方法
- 下一篇:一種智能斷路器





