[發(fā)明專利]一種基于密集協(xié)注意力模塊的VQA方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010520943.2 | 申請(qǐng)日: | 2020-06-10 |
| 公開(公告)號(hào): | CN111858849A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 張佳寧;武兆昌;陳云芳 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/332;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210012 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 密集 注意力 模塊 vqa 方法 | ||
1.一種基于密集協(xié)注意力模塊的VQA方法,其特征在于,所述方法為從圖像中提取出的特征V和問題中提取出的特征Q,送入多個(gè)密集協(xié)注意力機(jī)制模塊中,第一個(gè)模塊輸出由問題引導(dǎo)提取出來的圖像特征V1和由圖像引導(dǎo)提取出來的問題特征Q1,之后按照同樣的方式通過多個(gè)密集協(xié)注意力模塊操作,由兩種融合了對(duì)方特性的特征進(jìn)行問題詞的回答,具體包括以下步驟:
(1)向VQA系統(tǒng)中輸入圖像與問題文本;
(2)使用雙向LSTM對(duì)問題和圖像進(jìn)行編碼;
(3)利用四個(gè)卷積層提取圖像區(qū)域的視覺特征,利用問題引導(dǎo)的注意力對(duì)這些層進(jìn)行融合,獲得四個(gè)d×T的矩陣;
(4)通過softmax函數(shù)歸一化獲得四個(gè)注意力權(quán)重α1,α2,α3,α4,加權(quán)計(jì)算四個(gè)矩陣,獲得圖像表示d×T矩陣V=[v1,…,vT],它將圖像第t個(gè)區(qū)域的特征存儲(chǔ)在大小為d的第t個(gè)列向量中;
(5)將問題表示V與圖像表示Q作為輸入送入密集注意力層,Ql與Vl表示(l+1)-st層的輸入;
(6)給N個(gè)問題單詞加上K個(gè)狀態(tài)輔助信息以及T個(gè)圖像區(qū)域信息,結(jié)合兩個(gè)可學(xué)習(xí)的參數(shù)矩陣和在行方向上擴(kuò)大矩陣Ql與Vl獲得矩陣與
(7)線性投影d維特征與到多個(gè)低維空間,h為低維空間的數(shù)量,維度為dh(≡d/h),使用與來表示線性投影,從而獲得第i個(gè)空間的投影特征的關(guān)聯(lián)矩陣注意力圖的線性映射由每一個(gè)親和矩陣分別按列和行進(jìn)行歸一化獲得和多個(gè)參與特征的平均融合相當(dāng)于平均我們的注意力圖,即做平均運(yùn)算獲得與
(8)將所得的附加特征與以及平行特征與相乘,得到融合了對(duì)方特征的與
(9)融合第n列的向量與第n個(gè)問題單詞的表示通過連接形成2d向量將連接后的向量通過單層網(wǎng)絡(luò)投影到d維空間中,然后進(jìn)行ReLU激活和剩余連接獲得q(l+1)n;
(10)同步驟(9),連接第t個(gè)圖像區(qū)域的表示vlt和與該區(qū)域相關(guān)的整個(gè)問題單詞表示將連接后的向量通過單層網(wǎng)絡(luò)投影到d維空間中,然后進(jìn)行ReLU激活和殘差連接獲得v(l+1)t;
(11)給定最后一層的輸出QL與VL進(jìn)行答案預(yù)測,通過在其隱藏層使用具有ReLU非線性的相同的兩層MLP計(jì)算獲得qL1,…,qLN的sqL1,…,sqLN;
(12)對(duì)sqL1,…,sqLN進(jìn)行softmax從而獲得注意力權(quán)重計(jì)算出聚合表示
(13)同步驟12,使用不同權(quán)重的MLP,我們可以獲得注意力權(quán)重計(jì)算出
(14)按照步驟(2)的方法對(duì)答案進(jìn)行編碼,由M個(gè)單詞組成的答案被轉(zhuǎn)換為同樣經(jīng)過Bi-LSTM,產(chǎn)生隱藏狀態(tài)與獲得
(15)計(jì)算sA總和的內(nèi)積和:
其中,σ為邏輯函數(shù),W為需學(xué)習(xí)的權(quán)重矩陣。
2.根據(jù)權(quán)利要求1所述的一種基于密集協(xié)注意力模塊的VQA方法,其特征在于,所述步驟(2)包括以下步驟:
(21)將由N個(gè)單詞組成的問題文本轉(zhuǎn)換成GloVe詞向量序列
(22)將其輸入到一個(gè)具有剩余連接的單層雙向LSTM(Bi-LSTM)中,獲得與
(23)創(chuàng)建一個(gè)矩陣Q=[q1,…,qN]∈Rd×N,其中同時(shí)獲得用于后面獲取圖像的表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010520943.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于粒子濾波視覺注意力模型的運(yùn)動(dòng)目標(biāo)檢測方法
- 一種評(píng)測注意力狀態(tài)的方法及裝置
- 注意力測評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶注意力監(jiān)測估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





