[發(fā)明專利]一種多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式多模態(tài)預(yù)訓(xùn)練方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210962059.3 | 申請(qǐng)日: | 2022-08-11 |
| 公開(公告)號(hào): | CN115331075A | 公開(公告)日: | 2022-11-11 |
| 發(fā)明(設(shè)計(jì))人: | 余宙;羅同桉;俞俊;袁柳;劉弋鋒;許勝新 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院 |
| 主分類號(hào): | G06V10/774 | 分類號(hào): | G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06F40/30;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多模態(tài) 場(chǎng)景 知識(shí) 增強(qiáng) 對(duì)抗 式多模態(tài)預(yù) 訓(xùn)練 方法 | ||
本發(fā)明公開了一種多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式多模態(tài)預(yù)訓(xùn)練方法。本發(fā)明步驟:1、構(gòu)建圖像區(qū)域的特征表示及圖像先驗(yàn)知識(shí),2、構(gòu)建文本及跨模態(tài)先驗(yàn)知識(shí),3、構(gòu)建多模態(tài)場(chǎng)景圖,4、構(gòu)建對(duì)抗式噪聲生成網(wǎng)絡(luò)與多模態(tài)預(yù)訓(xùn)練網(wǎng)絡(luò),5、多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式預(yù)訓(xùn)練。本發(fā)明通過從圖像和文本兩個(gè)模態(tài)中提取先驗(yàn)知識(shí),以此構(gòu)建多模態(tài)場(chǎng)景圖,并構(gòu)建以多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的多模態(tài)自注意力網(wǎng)絡(luò)為核心的對(duì)抗噪聲生成網(wǎng)絡(luò),為輸入的圖文對(duì)數(shù)據(jù)生成噪聲擾動(dòng),與多模態(tài)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行對(duì)抗式多模態(tài)預(yù)訓(xùn)練,最終在下游任務(wù)上得到了更好的性能表現(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明提出一種多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式多模態(tài)預(yù)訓(xùn)練方法。核心方法為通過從圖像和文本兩個(gè)模態(tài)中提取先驗(yàn)知識(shí),以此構(gòu)建多模態(tài)場(chǎng)景圖,并構(gòu)建以多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的多模態(tài)自注意力網(wǎng)絡(luò)為核心的對(duì)抗噪聲生成網(wǎng)絡(luò),為輸入的圖文對(duì)數(shù)據(jù)生成噪聲擾動(dòng),與多模態(tài)預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行對(duì)抗式多模態(tài)預(yù)訓(xùn)練。
背景技術(shù)
受到谷歌研究者提出的基于“預(yù)訓(xùn)練-微調(diào)”范式的BERT模型在自然語言理解任務(wù)上成功的啟發(fā),一些用于解決廣泛的視覺與語言(Vision-and-Language,V+L)任務(wù)的多模態(tài)預(yù)訓(xùn)練(Vison-and-Language Pretraining,VLP)模型被提出。這些方法首先在一個(gè)大型的圖文語料庫(kù)中預(yù)訓(xùn)練基于Transformer的模型,然后在包括視覺問答、圖文檢索和基于文本的視覺內(nèi)容定位等下游的視覺與語言任務(wù)中進(jìn)行微調(diào)。與先前只適用于一種視覺與語言任務(wù)的方法不同,多模態(tài)預(yù)訓(xùn)練模型可以推廣到多個(gè)視覺與語言任務(wù),并且在這些任務(wù)上都取得了顯著的提升表現(xiàn)。
在圖像區(qū)域和文本詞語中學(xué)到細(xì)粒度的語義對(duì)齊是視覺與語言任務(wù)中非常關(guān)鍵的一點(diǎn)。然而,在大規(guī)模場(chǎng)景中對(duì)圖像區(qū)域和文本詞語進(jìn)行細(xì)粒度的人工標(biāo)注是非常昂貴并且不現(xiàn)實(shí)的。因此,現(xiàn)有的大多數(shù)多模態(tài)預(yù)訓(xùn)練方法都使用了弱監(jiān)督學(xué)習(xí)的策略來隱式地學(xué)習(xí)這種對(duì)齊。這些方法將圖像區(qū)域和文本詞語作為輸入,采用多層的Transformer作為主干網(wǎng)絡(luò),通過粗粒度的圖文匹配監(jiān)督來學(xué)習(xí)細(xì)粒度的語義對(duì)齊。除此之外,模態(tài)內(nèi)和模態(tài)間的干擾以及圖文對(duì)數(shù)據(jù)集中廣泛存在的噪聲數(shù)據(jù)也給學(xué)習(xí)語義上的對(duì)齊帶來了更多的挑戰(zhàn)。
在進(jìn)行多模態(tài)預(yù)訓(xùn)練時(shí),如何顯式或隱式地增強(qiáng)模型學(xué)到更細(xì)粒度的跨模態(tài)語義對(duì)齊是非常值得研究的問題。本專利擬從在多模態(tài)預(yù)訓(xùn)練中增強(qiáng)細(xì)粒度語義對(duì)齊學(xué)習(xí)的幾個(gè)關(guān)鍵點(diǎn)切入展開探討,形成一套完整的多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式多模態(tài)預(yù)訓(xùn)練方法。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的不足,提供了一種多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的對(duì)抗式多模態(tài)預(yù)訓(xùn)練方法。本發(fā)明主要包含兩點(diǎn):
使用圖像區(qū)域之間的相對(duì)位置關(guān)系信息和相對(duì)空間關(guān)聯(lián)信息建模圖像場(chǎng)景圖,作為圖像模態(tài)內(nèi)的先驗(yàn)知識(shí);使用文本詞語之間的語義關(guān)聯(lián)信息建模文本場(chǎng)景圖,作為文本模態(tài)內(nèi)的先驗(yàn)知識(shí);使用圖像區(qū)域與文本詞語之間的語義相似性信息建模跨模態(tài)關(guān)聯(lián)圖,并以此聯(lián)合圖像場(chǎng)景圖與文本場(chǎng)景圖組成包含模態(tài)內(nèi)與模態(tài)間知識(shí)的多模態(tài)場(chǎng)景圖。
構(gòu)建多模態(tài)場(chǎng)景圖知識(shí)增強(qiáng)的多模態(tài)自注意力網(wǎng)絡(luò),并以此構(gòu)建對(duì)抗式噪聲生成網(wǎng)絡(luò),使其能充分發(fā)掘模態(tài)內(nèi)與模態(tài)間的表征關(guān)聯(lián),生成有針對(duì)性的噪聲擾動(dòng),并與多模態(tài)預(yù)訓(xùn)練模型進(jìn)行對(duì)抗式預(yù)訓(xùn)練,使得多模態(tài)預(yù)訓(xùn)練模型能夠隱式地學(xué)習(xí)到更豐富的跨模態(tài)細(xì)粒度對(duì)齊信息。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案包括如下步驟:
步驟(1):構(gòu)建圖像區(qū)域的特征表示及圖像先驗(yàn)知識(shí);
對(duì)于數(shù)據(jù)集中的每一張圖像,使用訓(xùn)練好的目標(biāo)檢測(cè)網(wǎng)絡(luò)抽取圖像中包含的一系列物體和它們對(duì)應(yīng)的視覺特征、空間位置,并作為圖像區(qū)域的特征表示。通過物體的空間位置計(jì)算得到圖像區(qū)域之間的相對(duì)位置信息以及圖像區(qū)域之間的相對(duì)空間關(guān)聯(lián)信息,將相對(duì)位置信息并作和相對(duì)空間關(guān)聯(lián)信息為圖像的先驗(yàn)知識(shí)。
步驟(2):構(gòu)建文本及跨模態(tài)先驗(yàn)知識(shí);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院,未經(jīng)杭州電子科技大學(xué);中國(guó)電子科技集團(tuán)公司電子科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210962059.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開關(guān)及其場(chǎng)景開關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 增強(qiáng)片及增強(qiáng)方法
- 圖像增強(qiáng)設(shè)備和圖像增強(qiáng)方法
- 圖像增強(qiáng)裝置、圖像增強(qiáng)方法
- 粉狀增強(qiáng)減水劑及摻有粉狀增強(qiáng)減水劑的增強(qiáng)水泥
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 增強(qiáng)片、增強(qiáng)構(gòu)件、增強(qiáng)套件、增強(qiáng)片的制造方法及增強(qiáng)構(gòu)件的制造方法
- 使用增強(qiáng)模型的增強(qiáng)現(xiàn)實(shí)系統(tǒng)
- 增強(qiáng)片及增強(qiáng)結(jié)構(gòu)體
- 圖像增強(qiáng)方法和圖像增強(qiáng)裝置
- 增強(qiáng)現(xiàn)實(shí)鏡片、增強(qiáng)現(xiàn)實(shí)眼鏡及增強(qiáng)現(xiàn)實(shí)成像方法





