[發(fā)明專利]一種基于多模態(tài)融合的視覺問答融合增強(qiáng)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910520138.7 | 申請(qǐng)日: | 2019-06-17 |
| 公開(公告)號(hào): | CN110377710B | 公開(公告)日: | 2022-04-01 |
| 發(fā)明(設(shè)計(jì))人: | 顏成鋼;俞靈慧;孫垚棋;張繼勇;張勇東 | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | G06F16/332 | 分類號(hào): | G06F16/332;G06K9/62 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多模態(tài) 融合 視覺 問答 增強(qiáng) 方法 | ||
本發(fā)明公開了一種基于多模態(tài)融合的視覺問答融合增強(qiáng)方法。本發(fā)明步驟如下:1、利用GRU結(jié)構(gòu)構(gòu)建時(shí)序模型,獲得問題的特征表示學(xué)習(xí)、利用從Faster R?CNN抽取的基于自底向上的注意力模型的輸出作為圖像的特征表示;2、基于注意力模型Transformer進(jìn)行多模態(tài)推理,引入注意力模型對(duì)圖片?問題?答案這個(gè)三元組進(jìn)行多模態(tài)融合,建立推理關(guān)系;3、針對(duì)不同的隱含關(guān)系有不同的推理過程和結(jié)果輸出,再根據(jù)這些結(jié)果輸出來進(jìn)行標(biāo)簽分布回歸學(xué)習(xí),來確定答案。本發(fā)明基于特定的圖片和問題得到答案直接應(yīng)用于服務(wù)于盲人的應(yīng)用中,能夠幫助盲人或者視覺障礙者更好地感知周圍環(huán)境,也應(yīng)用于圖片檢索系統(tǒng),提高圖片檢索的準(zhǔn)確性和多樣性。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺、自然語(yǔ)言技術(shù)領(lǐng)域,特別地,本發(fā)明涉及一種基于多模態(tài)融合的視覺問答融合增強(qiáng)方法。
背景技術(shù)
視覺問答(Visual QuestionAnswer,簡(jiǎn)稱VQA)是一個(gè)結(jié)合計(jì)算機(jī)視覺領(lǐng)域和計(jì)算機(jī)自然語(yǔ)言領(lǐng)域的一個(gè)任務(wù),其需要解決的就是對(duì)特定的一張圖片提出一個(gè)特定的問題,推理出其答案。VQA有許多潛在的應(yīng)用場(chǎng)景,最直接的就是那些幫助盲人和視覺受損用戶的應(yīng)用,可以為盲人或者視覺受損用戶理解周圍環(huán)境,通過交互式的程序,能夠感知互聯(lián)網(wǎng)以及現(xiàn)實(shí)生活中的場(chǎng)景;另一個(gè)明顯的應(yīng)用是將VQA集成到圖像檢索系統(tǒng)中,通過自然語(yǔ)言來影響圖像的檢索,對(duì)社交或者商務(wù)產(chǎn)生巨大影響。
VQAtask主要解決下面三個(gè)問題:
1.對(duì)圖像和問題的細(xì)粒度特征表示;
2.多模態(tài)特征融合,能夠捕捉多模態(tài)特征之間的復(fù)雜交互關(guān)系;
3.考慮同一個(gè)問題的多個(gè)答案之間的語(yǔ)義關(guān)聯(lián)。
基于深度學(xué)習(xí)的相關(guān)技術(shù)已經(jīng)在計(jì)算機(jī)視覺領(lǐng)域取得了相當(dāng)大的成功,比如圖像分割,物體檢測(cè),圖像分類等任務(wù),從一開始的深度卷積神經(jīng)網(wǎng)絡(luò),到AlexNet,之后又有VGGNet,GoogLenet等網(wǎng)絡(luò)結(jié)構(gòu),尤其是基于殘差的深度卷積神經(jīng)網(wǎng)絡(luò)ResNet,這些網(wǎng)絡(luò)的發(fā)展對(duì)圖像的細(xì)粒度特征表示這一任務(wù)打下了堅(jiān)實(shí)的基礎(chǔ)。對(duì)于問題的細(xì)粒度特征表示這一任務(wù),傳統(tǒng)的方法主要是先提取文本特征,再利用如支持向量機(jī)等算法進(jìn)行學(xué)習(xí),隨著深度學(xué)習(xí)的發(fā)展,基于時(shí)序的遞歸神經(jīng)網(wǎng)絡(luò)以及基于長(zhǎng)短期記憶的神經(jīng)網(wǎng)絡(luò)能夠在句子語(yǔ)義的建模和理解上有很好的效果,很大程度上改善了有關(guān)自然語(yǔ)言的任務(wù),比如機(jī)器翻譯等的性能。
目前針對(duì)第二個(gè)任務(wù),多模態(tài)特征融合,主要可以分為兩類:
第一類是直接將圖片特征和問題特征融合起來,比如點(diǎn)乘,拼接,雙線性池化等;
第二類是基于注意力機(jī)制的特征融合,先把圖片特征和問題特征融合得到注意力分值,再對(duì)圖片特征進(jìn)行注意力分配,比如最早期提出的雙線性模型,MLB,MUTAN,MFH,MFB等方法。
缺點(diǎn):這些方法幾乎都只考慮了問題和圖像之間的關(guān)系,但是忽略了圖像-問題-答案這個(gè)三元組之間的隱藏關(guān)系,我們可以這樣想象,當(dāng)你知道具體答案的時(shí)候,你也可能有能力去推測(cè)問題,因此答案的作用在推理的過程中可能扮演了一個(gè)很重要的角色但是這些方法卻忽略了這個(gè)重要的信息,當(dāng)然也有工作考慮到了這一關(guān)系,嘗試通過將圖像特征表示、問題特征表示、答案特征表示進(jìn)行簡(jiǎn)單的拼接,或者把圖像和問題進(jìn)行融合之后再映射到答案特征上面去,但是這兩種方法很難將三元組之間的關(guān)系全面得表示出來。
綜合上述技術(shù),不難看出目前視覺問答主要還是基于圖像特征和問題特征的融合,而答案特征并沒有起到應(yīng)該有的作用,答案特征有時(shí)甚至能夠使得任務(wù)準(zhǔn)確性有很大提升,且圖像-問題-答案之間的復(fù)雜關(guān)系無法全面地被表達(dá)出來,且存在如下缺點(diǎn):
1.沒有有效利用答案信息,無法發(fā)揮答案信息的巨大作用;
2.在問題特征和圖片特征進(jìn)行多模態(tài)融合的時(shí)候,無法簡(jiǎn)潔有效地利用注意力機(jī)制來獲取最值得關(guān)注地區(qū)域。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910520138.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識(shí)別方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





