[發(fā)明專(zhuān)利]一種基于跨模態(tài)自注意力的無(wú)候選框指代表達(dá)理解方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111557573.0 | 申請(qǐng)日: | 2021-12-19 |
| 公開(kāi)(公告)號(hào): | CN114241191A | 公開(kāi)(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計(jì))人: | 王鵬;索偉;孫夢(mèng)陽(yáng);馬瑞陽(yáng) | 申請(qǐng)(專(zhuān)利權(quán))人: | 西北工業(yè)大學(xué) |
| 主分類(lèi)號(hào): | G06V10/25 | 分類(lèi)號(hào): | G06V10/25;G06V10/40;G06V10/82;G06V10/80;G06F40/289;G06K9/62;G06N3/04 |
| 代理公司: | 西北工業(yè)大學(xué)專(zhuān)利中心 61204 | 代理人: | 金鳳 |
| 地址: | 710072 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 跨模態(tài) 注意力 候選 指代 表達(dá) 理解 方法 | ||
1.一種基于跨模態(tài)自注意力的無(wú)候選框指代表達(dá)理解方法,其特征在于,包括如下步驟:
步驟1:圖像及語(yǔ)言信息的提取和編碼;
步驟1-1:將圖像經(jīng)過(guò)YOLOv3卷積神經(jīng)網(wǎng)絡(luò)提取得到一個(gè)特征圖;將圖像分為多個(gè)區(qū)域,在特征圖中加入圖像各個(gè)區(qū)域的位置信息,將得到的圖像特征記為G∈Rw×h×d,w、h、d分別表示特征圖的寬、高以及特征的維度,gi表示特征圖中第i個(gè)特征向量;
步驟1-2:設(shè)定最長(zhǎng)的語(yǔ)句詞數(shù)為T(mén),詞數(shù)不足T的語(yǔ)句空白處用PAD標(biāo)識(shí)填充,語(yǔ)句開(kāi)始位置添加CLS標(biāo)識(shí),語(yǔ)句結(jié)尾添加SEP標(biāo)識(shí);將語(yǔ)句分解為詞,通過(guò)詞嵌入后得到各個(gè)詞對(duì)應(yīng)的特征向量;再對(duì)詞的特征向量進(jìn)行位置編碼,將經(jīng)過(guò)位置編碼后的詞向量輸入進(jìn)BERT網(wǎng)絡(luò),得到語(yǔ)言特征E∈RT×dim,dim表示表達(dá)每個(gè)單詞特征向量的維度,et表示第t個(gè)詞匯的特征向量;
步驟2:基于多頭注意力機(jī)制的跨模態(tài)特征加強(qiáng);
步驟2-1:將語(yǔ)句特征E和圖像特征G輸入到跨模態(tài)交互注意力模塊中;所述跨模態(tài)交互注意力模塊包括語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊和視覺(jué)引導(dǎo)的語(yǔ)言注意力模塊;語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊和視覺(jué)引導(dǎo)的語(yǔ)言注意力模塊都分別由N個(gè)相同注意力層構(gòu)成;
在語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊和視覺(jué)引導(dǎo)的語(yǔ)言注意力模塊的第一個(gè)注意力層中,E1表示語(yǔ)言特征G1表示圖像特征在之后的N-1個(gè)注意力層中,En表示經(jīng)過(guò)n-1層圖像注意力引導(dǎo)得到的語(yǔ)言特征Gn表示經(jīng)過(guò)n-1層語(yǔ)言注意力引導(dǎo)得到的圖像特征n為當(dāng)前層數(shù);
步驟2-2:在語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊中,語(yǔ)言特征作為查詢(xún)矩陣Q的輸入,圖像特征作為鍵矩陣K和值矩陣V的輸入;語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊的輸入由語(yǔ)言特征和圖像特征構(gòu)成;對(duì)于每一個(gè)et和gi計(jì)算點(diǎn)積,并除以系數(shù)之后再利用softmax函數(shù)計(jì)算注意力權(quán)重,其中m為多頭注意力的頭數(shù),d為輸入的特征向量的維度;
每一層語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊用公式(1)-(3)表示:
其中是經(jīng)過(guò)n層語(yǔ)言引導(dǎo)的視覺(jué)注意力層后第i個(gè)注意力頭得到的圖像特征,分別表示語(yǔ)言引導(dǎo)的視覺(jué)注意力模塊第n層中第i個(gè)注意力頭針對(duì)Q、K、V的參數(shù);為將m個(gè)注意力頭得到的圖像特征融合后得到融合了語(yǔ)言注意力含義的的圖像特征,Concat為拼接操作,為將多頭注意力得到的多個(gè)維度的特征進(jìn)行拼接后進(jìn)行降維融合所用的參數(shù),Qi、Ki、Vi分別為第i個(gè)注意力頭的查詢(xún)矩陣、鍵矩陣和值矩陣;
每一層圖像引導(dǎo)的語(yǔ)言注意力模塊中用公式(4)-(6)表示:
其中是經(jīng)過(guò)n層圖像引導(dǎo)的語(yǔ)言注意力層后第i個(gè)注意力頭得到的語(yǔ)言特征,分別表示圖像引導(dǎo)的語(yǔ)言注意力模塊第n層中第i個(gè)頭針對(duì)Q、K、V的參數(shù);為將m個(gè)注意力頭得到的語(yǔ)言特征融合后得到融合了圖像注意力含義的的語(yǔ)言特征,Concat為拼接操作,為將多頭注意力得到的多個(gè)維度的特征進(jìn)行拼接后進(jìn)行降維融合所用的參數(shù);
經(jīng)過(guò)跨模態(tài)交互注意力模塊的迭代后,得到經(jīng)過(guò)注意力加強(qiáng)后的圖像特征和語(yǔ)言特征;
步驟3:基于多頭自注意力機(jī)制的跨模態(tài)特征融合;
對(duì)語(yǔ)言特征和圖像特征進(jìn)行拼接,作為多頭自注意力模塊的輸入經(jīng)過(guò)多頭跨模態(tài)融合之后,提取視覺(jué)部分的輸出得到HF∈R(w×h)×d;
步驟4:目標(biāo)定位;
將HF輸入含有5個(gè)卷積核、步長(zhǎng)為1的卷積層,得到形狀為w×h×5的預(yù)測(cè)結(jié)果向量,對(duì)圖像進(jìn)行等長(zhǎng)等寬的區(qū)域的劃分,按照位置關(guān)系將w×h個(gè)預(yù)測(cè)結(jié)果分別對(duì)應(yīng)于圖像的w×h個(gè)區(qū)域,每個(gè)區(qū)域稱(chēng)為一個(gè)格子;其中的5指5個(gè)預(yù)測(cè)值,分別為tx、ty、tw、th,為預(yù)測(cè)框中心點(diǎn)的置信度即當(dāng)前格子含有檢測(cè)目標(biāo)的可能性,tx、ty分別為預(yù)測(cè)目標(biāo)中心點(diǎn)相對(duì)當(dāng)前格子中心點(diǎn)的橫坐標(biāo)、縱坐標(biāo)的偏移量,tw、th分別為預(yù)測(cè)目標(biāo)長(zhǎng)寬相對(duì)于實(shí)際目標(biāo)長(zhǎng)寬的偏移量;
設(shè)定目標(biāo)框真值為bbox=Xb,Yb,Wb,Hb,(Xb,Yb)為目標(biāo)框的中心點(diǎn)坐標(biāo),Wb、Hb分別為目標(biāo)框的寬和高的真值;采用作為在計(jì)算損失時(shí)用到的目標(biāo)框相對(duì)寬高,W、H分別為輸入圖像長(zhǎng)和寬的大小;網(wǎng)絡(luò)訓(xùn)練損失函數(shù)定義如下:
Loff=(Δx-tx)2+(Δy-ty)2, (8)
式中,Cij=1表示當(dāng)前格子中含有真值目標(biāo)的中心點(diǎn),Cij=0表示當(dāng)前格子中不含有真值目標(biāo)的中心點(diǎn);表示真值目標(biāo)的中心點(diǎn)對(duì)于該格中心的偏移,i、j分別指int(·)表示該操作將分?jǐn)?shù)舍入到最接近的整數(shù),用來(lái)表示目標(biāo)中心點(diǎn)真值所在的格子的實(shí)際位置;表示在第i行第j列目標(biāo)中心點(diǎn)真值所在的格子中預(yù)測(cè)含有目標(biāo)中心點(diǎn)的可信度;
只對(duì)真值目標(biāo)的中心點(diǎn)所在的格子進(jìn)行Loff、Lrgr的計(jì)算;增加了GIoU損失作為輔助;總損失函數(shù)如下:
Loss=Lcls+λoffLoff+λrgrLrgr+Lgiou (10)
式中,λoff為L(zhǎng)off的權(quán)重參數(shù),λrgr為L(zhǎng)rgr的權(quán)重參數(shù);
步驟5:訓(xùn)練完成后,對(duì)網(wǎng)絡(luò)進(jìn)行測(cè)試,最終選擇置信度最高的格子中心點(diǎn)作為預(yù)測(cè)位置中心,以此為基礎(chǔ)產(chǎn)生預(yù)測(cè)框,最終預(yù)測(cè)的目標(biāo)邊界框如下:
其中,(Xt、Yt)表示預(yù)測(cè)框中心點(diǎn)的橫縱坐標(biāo),Wt、Ht分別表示預(yù)測(cè)框的長(zhǎng)、寬。
2.根據(jù)權(quán)利要求1所述的一種基于跨模態(tài)自注意力的無(wú)候選框指代表達(dá)理解方法,其特征在于,所述T=20。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111557573.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 一種基于特定模態(tài)語(yǔ)義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲(chǔ)介質(zhì)
- 基于解糾纏表達(dá)學(xué)習(xí)的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識(shí)別方法及裝置
- 跨模態(tài)人臉識(shí)別的方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 跨模態(tài)檢索模型的訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于有監(jiān)督對(duì)比的跨模態(tài)檢索方法、系統(tǒng)及設(shè)備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法
- 基于粒子濾波視覺(jué)注意力模型的運(yùn)動(dòng)目標(biāo)檢測(cè)方法
- 一種評(píng)測(cè)注意力狀態(tài)的方法及裝置
- 注意力測(cè)評(píng)方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 兒童注意力評(píng)估系統(tǒng)及其方法
- 一種注意力檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種注意力識(shí)別方法和裝置
- 一種可靠的用戶(hù)注意力監(jiān)測(cè)估計(jì)表示模型
- 注意力特征圖獲取方法及裝置、目標(biāo)檢測(cè)的方法及裝置
- 基于通道增強(qiáng)的雙注意力生成對(duì)抗網(wǎng)絡(luò)及圖像生成方法
- 一種文本情感分析模型的優(yōu)化方法及裝置





