[發(fā)明專利]基于跨模態(tài)文本檢索注意力機(jī)制的文本指導(dǎo)圖像分割方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110952433.7 | 申請(qǐng)日: | 2021-08-19 |
| 公開(公告)號(hào): | CN113657400A | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉宇;陳鵬;單世民;李新宇;徐凱平 | 申請(qǐng)(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號(hào): | G06K9/34 | 分類號(hào): | G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 遼寧鴻文知識(shí)產(chǎn)權(quán)代理有限公司 21102 | 代理人: | 楊植 |
| 地址: | 116024*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 跨模態(tài) 文本 檢索 注意力 機(jī)制 指導(dǎo) 圖像 分割 方法 | ||
1.一種基于跨模態(tài)文本檢索注意力機(jī)制的文本指導(dǎo)圖像分割方法,其特征在于,步驟如下:
(1)特征提取:
對(duì)輸入自然語(yǔ)言文本和RGB圖片進(jìn)行特征提取;
對(duì)于自然語(yǔ)言文本,使用one-hot方法將每個(gè)單詞表示為向量,將該向量嵌入成低維向量后輸入LSTM長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),將最終隱藏態(tài)作為整個(gè)自然語(yǔ)言文本的文本表示向量Fl;
對(duì)于RGB圖片,采用ResNet-1O1卷積神經(jīng)網(wǎng)絡(luò)的Res3,Res4,Res5層提取圖片特征作為視覺特征在三層特征圖使用相同處理步驟,視覺特征統(tǒng)稱為Fv;其中卷積神經(jīng)網(wǎng)絡(luò)采用DeepLab語(yǔ)義分割模型預(yù)訓(xùn)練參數(shù)作為初始參數(shù);之后將每個(gè)視覺特征向量的位置坐標(biāo)嵌入視覺特征Fv中,具體過程如下:
對(duì)于長(zhǎng)寬為w,h的視覺特征圖,其中w=h=40;以視覺特征圖的中心位置作為坐標(biāo)原點(diǎn)(0,0),特征圖左上角位置坐標(biāo)記為(-1,-1),右下角位置坐標(biāo)記為(+1,+1),特征圖中第i行j列的像素空間位置坐標(biāo)為
最后將視覺特征Fv與文本表示向量Fl級(jí)聯(lián)后映射至500維的文本圖像多模態(tài)特征空間M;
(2)圖文信息深度融合:
將步驟(1)中生成的文本表示向量Fl與多模態(tài)特征空間M中的每個(gè)位置做哈達(dá)瑪乘積實(shí)現(xiàn)對(duì)二者多模態(tài)信息的建模,實(shí)現(xiàn)文本與圖像信息深度融合至統(tǒng)一的多模態(tài)混合特征空間M′;
(3)深層次關(guān)系捕捉:
將步驟(1)中生成的文本表示向量Fl作為注意力機(jī)制的查詢向量,步驟(2)生成的多模態(tài)混合特征空間M′作為檢索區(qū)域,使用基于文本的跨模態(tài)注意力機(jī)制查詢多模態(tài)混合特征空間中與文本相似區(qū)域,生成具有定位目標(biāo)物體的特征圖R;
(4)多層級(jí)特征混合:
步驟(1)中采用的ResNet101視覺編碼器能夠得到三個(gè)來自Res3,Res4,Res5層級(jí)的視覺特征Fv;在獲取方法預(yù)測(cè)的最終結(jié)果需要將三個(gè)層級(jí)的特征進(jìn)行混合;
使用R(i)表示步驟(3)生成的第i層的混合信息特征圖i∈{3,4,5};由于R(i)屬于不同層深層次關(guān)系捕捉模塊輸出的特征圖,具有著不同的通道維度;首先使用1×1卷積將所有不同層的混合特征圖通道壓縮成相同維度數(shù),將映射后的輸出結(jié)果記為X(i);之后對(duì)于第i個(gè)層級(jí),使用一個(gè)記憶門單元m(i)和重置門單元聯(lián)合控制最終結(jié)果的生成,記憶門單元m(i)和重置門單元r(i)的作用類似于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中的門控單元,控制著對(duì)應(yīng)層中特征對(duì)于最終結(jié)果的貢獻(xiàn)度,貢獻(xiàn)度權(quán)重比例越高,意味著對(duì)應(yīng)層語(yǔ)義信息提供的越多,所處特征層越重要;此外還包含一個(gè)上下文控制器C(i),用來表示其他層流至第i層特征的信息;門控多層級(jí)混合能夠有效融合來自不同層級(jí)的特征語(yǔ)義信息,通過學(xué)習(xí)訓(xùn)練的手段自動(dòng)生成最佳權(quán)重比例,使模型結(jié)果更加準(zhǔn)確,提高模型的分割細(xì)節(jié)精度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110952433.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種基于特定模態(tài)語(yǔ)義空間建模的跨模態(tài)相似性學(xué)習(xí)方法
- 一種跨模態(tài)信息檢索方法、裝置和存儲(chǔ)介質(zhì)
- 基于解糾纏表達(dá)學(xué)習(xí)的跨模態(tài)生物特征匹配方法及系統(tǒng)
- 基于跨模態(tài)行人重識(shí)別方法及裝置
- 跨模態(tài)人臉識(shí)別的方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 跨模態(tài)檢索模型的訓(xùn)練方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種基于多模態(tài)注意力機(jī)制的跨模態(tài)哈希方法及系統(tǒng)
- 跨模態(tài)檢索方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 基于有監(jiān)督對(duì)比的跨模態(tài)檢索方法、系統(tǒng)及設(shè)備
- 一種生成跨模態(tài)的表示向量的方法以及跨模態(tài)推薦方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





