[發明專利]基于多交互注意力的端到端多模態問答方法及系統有效
| 申請號: | 202110848497.2 | 申請日: | 2021-07-27 |
| 公開(公告)號: | CN113297370B | 公開(公告)日: | 2021-11-16 |
| 發明(設計)人: | 張賓;孫喜民;高亞斌;賈江凱;鄭斌;王帥;李慧超;孫博 | 申請(專利權)人: | 國網電子商務有限公司;國網電商科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/30;G06T11/60;G06N3/04 |
| 代理公司: | 成都華復知識產權代理有限公司 51298 | 代理人: | 龐啟成 |
| 地址: | 100053 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 交互 注意力 端到端多模態 問答 方法 系統 | ||
本發明公開了基于多交互注意力的端到端多模態問答方法及系統,包括:(1)接收問題和背景知識;(2)從接收的背景知識中篩選出與問題相關的文本背景知識和圖像背景知識;(3)對篩選出的文本背景知識進行編碼,獲得文本背景知識中各段落的特征表示;(4)將篩選出的圖像背景知識解析為圖像特征表示,并構建可微場景圖;(5)融合特征表示和可微場景圖,獲得背景知識的融合特征表示;(6)將融合特征表示、問題的特征表示、候選答案的特征表示輸入非線性層,計算各候選答案的預測概率,輸出預測概率最高的候選答案。本發明可有效利用多模態信息,提升多模態語義理解的準確度和全面性,從而提升多模態問答系統的準確率。
技術領域
本發明屬于計算機視覺、自然語言處理和多模態問答技術領域,更具體地說,涉及基于多交互注意力的端到端多模態問答方法及系統。
背景技術
問答系統(Question Answer,簡稱QA)能自動滿足用戶的查詢需求,幫助人們進行信息獲取,它已顯示出應用于現實世界問題的巨大潛力。但純粹的文本難以描述人類面臨的真實場景,實際生活中知識是多模態的,信息通過文本、圖像和視頻等傳播。一個能夠回答實際生活中問題的系統必須學會理解這些多模態信息,多模態問答是更貼近真實場景的任務。
近年來計算機視覺和自然語言處理技術都取得了巨大進展,促進了多模態任務的實際應用。教科書問答(Textbook Question Answer,簡稱TQA)任務是通過結合多模態信息(包含大量文本文檔和圖表)來描述現實世界中相當復雜的現象。因此,要回答課程問題,可能涉及較長的教科書課程中的多模態背景知識的理解。所以教科書問答相比于一般的文本問答、視覺問答等單模態問答任務更加復雜,對多模態數據的要求更高,也面臨著更大的挑戰。
基于深度學習的相關技術為多模態數據的表示任務打下了堅實的基礎,在對文本和圖像的建模和理解上取得了很好的效果。而在多模態問答領域,現有方法主要分為兩類:一類是直接將全局圖像特征和文本特征融合,比如拼接、雙線性池化模型等;另一類是基于結構圖的對齊融合,比如將文本解析為語法依賴樹,將圖像解析為無標簽圖。然而,一方面,這些方法都只考慮了圖像內容和文本內容的淺層融合,忽略了單個模型數據中的自我影響以及跨模態數據之間的交互影響,難以有效聯合多模態數據的信息進行語義理解;另一方面,圖像解析模塊、文本解析模塊與語義理解模塊分離,即兩個模塊單獨訓練,最終導致解析模塊的誤差直接影響語義理解模塊,且該損失難以通過誤差反向傳播對解析模塊修正。
綜上所述,不難看出目前多模態問答技術難以對多模態數據的語義信息進行有效利用,淺層粗融合和解析后融合的方法都不可避免地產生語義損失,有效地多模態方法仍有待改善。
發明內容
本發明的目的在于克服現有技術的不足,提供基于多交互注意力的端到端多模態問答方法及系統,本發明可有效利用多模態信息,提升多模態語義理解的準確度和全面性,從而提升多模態問答系統的準確率。
本發明實施例提供的基于多交互注意力的端到端多模態問答方法,包括:
(1)接收問題和背景知識,所述背景知識包括文本背景知識和圖像背景知識;
(2)從接收的背景知識中篩選出與問題相關的文本背景知識和圖像背景知識;
(3)對篩選出的文本背景知識進行編碼,獲得文本背景知識中各段落的特征表示;
(4)將篩選出的圖像背景知識解析為圖像特征表示,并構建可微場景圖;
(5)融合步驟(3)和(4)所獲段落的特征表示和可微場景圖,獲得背景知識的融合特征表示;本步驟具體包括:
利用注意力機制,從段落的特征表示中抽取與問題相關的文本重要特征;
利用注意力機制,從可微場景圖中抽取與問題相關的圖像重要特征;
將文本重要特征和圖像重要特征輸入多交互注意力模塊進行融合,獲得融合特征表示;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網電子商務有限公司;國網電商科技有限公司,未經國網電子商務有限公司;國網電商科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110848497.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種財險、農險移動作業平臺系統
- 下一篇:一種電纜托架





