[發明專利]一種基于多模態學習的視覺對話生成方法及裝置有效
| 申請號: | 202110848206.X | 申請日: | 2021-07-27 |
| 公開(公告)號: | CN113553418B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 劉安安;張國楷;徐寧;宋丹;靳國慶;張勇東 | 申請(專利權)人: | 天津大學;人民網股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/583;G06F40/211;G06F40/30;G06F40/253;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/048;G06N3/08 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 學習 視覺 對話 生成 方法 裝置 | ||
本發明公開了一種基于多模態學習的視覺對話生成方法及裝置,方法包括:利用關鍵信息進行全局上下文信息語義補充,提取與當前問題相關的歷史對話信息,獲取精簡歷史信息;再提取與文本信息相關的視覺區域信息,獲取精簡視覺信息;將多模態問題相關信息進行融合得到多模態問題相關信息,作為答案推理的重要元素;用文本和視覺的問題相關信息對三元組結構化表征進行語義補全,以補全在多模態信息精簡化過程中損失掉的有效信息;將精簡歷史信息、精簡視覺信息、補全后的多模態問題相關信息進行特征融合;將特征融合信息送入解碼器中推理得到與當前問題相關的答案。裝置包括:處理器和存儲器。本發明采用多模態信息交互,對文本和視覺信息發掘細粒度關系信息。
技術領域
本發明涉及多模態細粒度信息語義理解,以及視覺對話生成領域,尤其涉及一種基于多模態學習的視覺對話生成方法及裝置。
背景技術
隨著視覺理解和自然語言處理領域的蓬勃發展,使得視覺與語言層面進行交互的多模態視覺對話生成受到了廣泛關注。智能體用自然語言依據圖像和以往的對話記錄來回答人類提出的一系列問題。在這個過程中,智能體需要充分理解對話中細粒度語義信息并將其與視覺內容進行對齊,融合已知的多模態信息生成最終的推理答案。如何從文本與視覺信息中挖掘到與問題相關的語義信息一直是研究的重點。為了推動研究進程,VISDIALV1.0數據集被提出[1],這也是該領域被廣泛認可的數據集。
在現有的方法中,研究者們將目光投向如何用文本語義信息來引導視覺語義信息,這是因為問題中可能存在代詞,若代詞指代關系未知,那就無法準確定位到圖像中的目標區域,故需要上下文來進行指代關系的確定。已有的框架像DAN[2]、RAA-Net[3]都是先用問題引導并提取相關歷史對話信息,將其進行融合后對圖像相關區域進行定位,由提取出的文本與視覺共同推導答案,整個流程中多模態信息交互是非常重要的。但是上述框架提取出的歷史對話信息是整個問答對,其中像是語法結構等冗余內容可能不會推動答案生成甚至損害推理結果;并且圖像定位區域可能存在大量噪聲,若直接提取細粒度視覺特征,噪聲也會對推理產生負面影響,多模態信息中的目標關系不明晰。除此之外,對原始模態相關信息的提取仍存在許多能夠提升和改進的策略。
盡管已經有人在視覺對話生成領域取得一系列進展[4,5,6,7],但是仍然沒有引入細粒度的結構化表征信息的框架,忽略了目標關系信息對于推理的作用。主流的方法仍是對原始信息進行特征提取與融合的操作,冗余信息和噪聲無法被有效剔除。基于此研究現狀,目前面臨的挑戰主要有以下三個方面:
1、如何從原始多模態信息中抽取出無冗余去噪的目標關系結構化表征形式;
2、如何使得原始信息與多模態結構化表征進行深度語義互補;
3、如何更加有效地選取出與當前問題密切相關的對話歷史信息和圖像區域信息。
發明內容
本發明提供了一種基于多模態學習的視覺對話生成方法及裝置,本發明從視覺和文本上挖掘精簡的語義信息,并由“主體-關系-客體”三元組構建成的圖進行目標關系結構化表征;在文本信息處理階段,將初始的視覺描述信息融合到歷史對話的各個回合中進行全局化語義補充,從而精細化當前問題對于各個回合的關注度;在視覺信息處理階段,將處理的文本信息融入到每個視覺區域中進行語義對齊,整個過程中多模態信息交互,智能體對文本和視覺信息進一步發掘細粒度關系信息,詳見下文描述:
第一方面,一種基于多模態學習的視覺對話生成方法,所述方法包括以下步驟:
1)利用關鍵信息進行全局上下文信息語義補充,提取與當前問題相關的歷史對話信息,獲取精簡歷史信息;再提取與文本信息相關的視覺區域信息,獲取精簡視覺信息;將多模態問題相關信息進行融合得到多模態問題相關信息,作為答案推理的重要元素;
2)用文本和視覺的問題相關信息對三元組結構化表征進行語義補全,以補全在多模態信息精簡化過程中損失掉的有效信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學;人民網股份有限公司,未經天津大學;人民網股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110848206.X/2.html,轉載請聲明來源鉆瓜專利網。





