[發(fā)明專利]一種基于多模態(tài)多層次統(tǒng)一交互的短語(yǔ)定位識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011127854.8 | 申請(qǐng)日: | 2020-10-11 |
| 公開(kāi)(公告)號(hào): | CN112269892B | 公開(kāi)(公告)日: | 2023-04-07 |
| 發(fā)明(設(shè)計(jì))人: | 劉偲;余天予;惠天瑞;廖越;余志浩 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類(lèi)號(hào): | G06F16/58 | 分類(lèi)號(hào): | G06F16/58;G06F16/55;G06F16/33;G06V10/44;G06V10/764;G06V10/82;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 多層次 統(tǒng)一 交互 短語(yǔ) 定位 識(shí)別 方法 | ||
1.一種基于多模態(tài)多層次統(tǒng)一交互的短語(yǔ)定位識(shí)別方法,其特征在于,包括:
構(gòu)建預(yù)訓(xùn)練機(jī)器閱讀模型和預(yù)訓(xùn)練目標(biāo)檢測(cè)模型;
獲取圖片和針對(duì)所述圖片的文字說(shuō)明;
利用所述預(yù)訓(xùn)練機(jī)器閱讀模型提取所述文字說(shuō)明中各個(gè)短語(yǔ)基于上下文的文本特征;
利用所述預(yù)訓(xùn)練目標(biāo)檢測(cè)模型提取所述圖片中的多個(gè)圖像候選位置,并對(duì)所述圖像候選位置對(duì)應(yīng)的低維特征進(jìn)行優(yōu)化處理;
利用注意力算法模擬各個(gè)所述短語(yǔ)與各個(gè)所述圖像候選位置之間的交互;交互過(guò)程為:
上式中,公式(5)表示將圖像區(qū)域特征υi和文本單元特征wj通過(guò)線性變化映射到同一線性空間中;sij表示第i個(gè)圖像區(qū)域?qū)Φ趈個(gè)短語(yǔ)的響應(yīng)度;
公式(7)表示將上面得到的響應(yīng)度sij分別按照?qǐng)D像區(qū)域和按照單詞進(jìn)行歸一化,從而得到圖像到文本的注意力圖AV→L和文本到圖像的注意力圖AL→V;最后利用這兩個(gè)注意力圖作為權(quán)重,得到圖像區(qū)域和單詞的跨模態(tài)上下文和然后將這一上下文信息和圖像區(qū)域或者單詞的原始特征合并,得到每個(gè)區(qū)域圖像和單詞的最終表示;為對(duì)第k個(gè)單詞響應(yīng)最高的top-3圖像區(qū)域中的隨機(jī)一個(gè)的圖像特征;
基于交互結(jié)果計(jì)算各個(gè)所述短語(yǔ)與所述圖像候選位置之間的特征相似度,并以所述特征相似度作為鍵值確定各個(gè)所述短語(yǔ)的定位決策結(jié)果;
利用深度集合模型對(duì)各個(gè)所述短語(yǔ)的定位決策結(jié)果進(jìn)行整合和正則化處理。
2.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)多層次統(tǒng)一交互的短語(yǔ)定位識(shí)別方法,其特征在于,所述預(yù)訓(xùn)練機(jī)器閱讀模型為在海量無(wú)標(biāo)注文本上訓(xùn)練得到的BERT模型。
3.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)多層次統(tǒng)一交互的短語(yǔ)定位識(shí)別方法,其特征在于,所述預(yù)訓(xùn)練目標(biāo)檢測(cè)模型為在Visual-Genome數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練得到的,并使用ResNet-101作為backbone。
4.根據(jù)權(quán)利要求1所述的一種基于多模態(tài)多層次統(tǒng)一交互的短語(yǔ)定位識(shí)別方法,其特征在于,利用局部注意力機(jī)制和全局注意力機(jī)制優(yōu)化所述圖像候選位置的低維特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011127854.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類(lèi)方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門(mén)機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 利用商用支撐結(jié)構(gòu)所構(gòu)筑的多層次水產(chǎn)養(yǎng)殖系統(tǒng)
- 多層次微粒體及其抗眩膜
- 一種自動(dòng)生成網(wǎng)格與著色器多層次細(xì)節(jié)的方法
- 一種高靈敏度電容型柔性壓力傳感器
- 一種基于多組學(xué)數(shù)據(jù)整合的植物全基因組多層次生物網(wǎng)絡(luò)重建方法
- 基于多層次深度特征的鐵軌異物檢測(cè)方法與裝置
- 多源故障檢測(cè)與診斷方法和裝置
- 識(shí)別待檢測(cè)樣本中異常細(xì)胞的方法、裝置和存儲(chǔ)介質(zhì)
- 云平臺(tái)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 用于產(chǎn)生多層次字符圖形的方法和裝置以及記錄介質(zhì)





