[發明專利]一種基于概念交互和關聯語義的文本視覺問答系統及方法有效
| 申請號: | 202010584144.1 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111858882B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 高聯麗;李向鵬;宋井寬 | 申請(專利權)人: | 貴州大學;電子科技大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/532;G06F16/332;G06V30/19;G06V10/82;G06V20/62;G06V30/416;G06N3/04;G06N3/08 |
| 代理公司: | 北京正華智誠專利代理事務所(普通合伙) 11870 | 代理人: | 楊浩林 |
| 地址: | 55000*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 概念 交互 關聯 語義 文本 視覺 問答 系統 方法 | ||
本發明提供了一種基于概念交互和關聯語義的文本視覺問答系統及方法,包括物體位置提取模塊、第一全連接層、文本信息提取模塊、第二全連接層、OCR?object圖卷積網絡、多門步機制圖卷積網絡、轉換器網絡以及雙向轉換器表征編碼器BERT。本申請利用圖像中物體和文本信息的位置關系建模,之后通過OCR?object圖卷積網絡對文本信息和物體信息建模,通過門機制對關系的編碼學習到豐富且具有指向性的特征,最后通過轉換器網絡對圖像當中的物體和文本進行精準關注,從而得到更加準確的答案。
技術領域
本發明屬于視覺問答技術領域,尤其涉及一種基于概念交互和關聯語義的文本視覺問答系統及方法。
背景技術
隨著視覺和語言交互領域的發展,文本視覺問答算法近些年取得了巨大的進步。作為視覺問答的一個分支,文本視覺問答算法把算法的重心放在如何挖掘圖片中文本和物體關系,并用來支持問題回答,它在現實應用當中也是應用廣泛,例如針對殘障人士的視覺助理,針對低齡兒童教育助手等等。相比較于傳統的視覺問答算法,文本視覺問答算法的目標是要求模型能夠同時理解圖像當中的視覺信息和文本信息,在這些重要線索的前提之下進行推理,并最終回答這個關于圖像當中文本的問題。如果要完成如上的這些要求,此任務將涉及到多個領域的知識,例如物體檢測,文本識別和多模態推理等等。因為其系統算法的復雜性,它現在是機器智能方面一個亟待解決的問題。
目前大多數的視覺問答算法主要將其注意力聚焦在注意力機制和基于圖的方法中。注意力機制要求模型將權值分配給圖像當中的物體或者文本,重要的信息給定的權值較大,不相關的信息給定的權值比較小,因此這些算法能夠準確的找到重要的信息,然而,這些方法沒有辦法對圖像當中的復雜關系進行建模。基于圖的方法能夠成功的對圖像當中的元素構建一張基于關系的圖譜網絡,算法能夠根據圖譜之中元素的關系進行推理進而得到答案。這些方法雖然在視覺問答數據集上表現得效果很好,但是一旦他們遇到與文本相關的問題的時候他們的效果就非常差,因為這些算法沒有閱讀圖片中文本的能力。除此之外,當前的方法大多對于圖片當中文本信息和物體信息之間的關系挖掘不夠深入,大多數的模型都是只簡單地將這些信息當作簡單的輸入送入到模型當中,但是在實際的推理過程中本申請會發現這些關系信息是非常重要的。
發明內容
針對現有技術中的上述不足,本發明提供的一種基于概念交互和關聯語義的文本視覺問答系統及方法,解決了現有技術中忽略物體和視覺關系的問題。
為了達到以上目的,本發明采用的技術方案為:
本方案提供一種基于概念交互和關聯語義的文本視覺問答系統,包括物體位置提取模塊、與所述物體位置提取模塊連接的第一全連接層、文本信息提取模塊、與所述文本信息提取模塊連接的第二全連接層、分別與所述第一全連接層以及第二全連接層連接的OCR-object圖卷積網絡、與所述OCR-object圖卷積網絡連接的門步機制圖卷積網絡以及與所述門步機制圖卷積網絡連接的轉換器網絡,所述轉換器網絡與雙向轉換器表征編碼器BERT連接;
所述物體位置提取模塊,用于利用預訓練的Faster-RCNN快速區域物體檢測器模型提取圖像中的視覺特征及其對應的位置信息;
所述第一全連接層,用于將所述視覺特征及其對應的位置信息進行融合,得到物體的位置信息;
所述文本信息提取模塊,用于利用OCR識別模型檢測圖像中的文本信息及其對應的位置信息;
所述第二全連接層,用于對所述文本信息及其對應的位置信息進行融合,得到文本的位置信息;
所述OCR-object圖卷積網絡,用于根據物體的位置信息和文本的位置信息,提取物體的位置信息和文本的位置信息的重疊關系;
所述多門步機制圖卷積網絡,用于對重疊關系進行編碼;
所述雙向轉換器表征編碼器BERT,用于提取問題文本的問題信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州大學;電子科技大學,未經貴州大學;電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010584144.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水泥面防滑紋壓印推車
- 下一篇:一種預應變強化波紋管的成型方法





