[發明專利]基于異質圖神經網絡的文本視覺問答實現方法在審
| 申請號: | 202110370266.5 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113094484A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 高晨雨;朱琪;王鵬 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 呂湘連 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 異質圖 神經網絡 文本 視覺 問答 實現 方法 | ||
本發明提出一種基于異質圖神經網絡的文本視覺問答實現方法。該方法中網絡結構分為問題自我注意力模型、異質圖注意力模型和全局?局部注意力應答模型三部分。問題自我注意力模型將一個具有T個單詞的問題Q,通過預訓練的BERT網絡得到輸入單詞對應的融合全文語義信息的詞向量;異質圖注意力模型從圖像中構建異質圖,采用注意力機制,使用不同的問題特征更新異質圖的不同部分,得到問題條件下對象和文本的異質圖特征;全局?局部注意力應答模型采用迭代的方式,得到函數預測答案。本方法中,二分支評價函數使得生成的答案可以同時兼顧OCR標記和一般文本標記,從而提高了應答的準確率,最終達到高精度的效果。
技術領域
本發明屬基于文本視覺問答領域,具體為采用問題自我注意模塊-異質圖注意力模型-全局局部注意力應答模型結構的高精度文本視覺問答實現方法。
背景技術
視覺問答(visual Question answer,VQA)是計算機視覺和自然語言處理領域的一個交叉領域,自大規模的VQA數據集發布以來,該領域引起了越來越多的關注。隨著深度神經網絡的發展,視覺問答技術已經取得了很大的進步。文本視覺問答(TextVQA)是近年來提出的一項挑戰,它要求機器讀取圖像中的文本,并通過對問題、光學字符識別(OCR)標記和視覺內容的聯合推理來回答自然語言問題。大多數最先進的VQA方法無法回答這些問題,原因是:1)文本閱讀能力差;2)缺乏文視推理能力;3)應答機制在最終應答中難以同時覆蓋OCR標記和一般文本標記。
因此,本專利主要為了解決上述問題而設計。本專利使得文本視覺應答算法能夠在高文本閱讀能力和文視推理能力,以及同時兼顧OCR標記和一般文本標記的前提下,達到高精確度的效果。
發明內容
為了解決上述問題,本發明提供了一種基于異質圖神經網絡的文本視覺問答實現方法。
本發明的技術方案如下:一種基于異質圖神經網絡的文本視覺問答實現方法,所述網絡結構分為問題自我注意力模型、異質圖注意力模型和全局-局部注意力應答模型三部分(如圖1所示)。問題自我注意力模型(如圖2所示)基于BERT網絡,獲取文本問題的詞向量特征,再通過六分類網絡將問題特征分解為六個子組件,包括對象(object,o),對象-對象關系(object-object,oo),對象-文本關系(object-text,ot),文本(text,t),文本-文本關系(text-text,tt),文本-對象關系(text-object,to),并提取每個組件的分解的問題特征和自我注意力權重。異質圖注意力模型(如圖3所示)受圖卷積網絡的啟發而設計,從輸入圖像中提取對象和文本相關信息并構建異質圖,使用前一步得到的分解的問題特征采用注意力機制對異質圖進行推理,得到結點和邊的注意力權重和異質圖問題特征。全局-局部注意力應答模型(如圖4所示)受M4C模型啟發,使用transformer將分解的問題特征和異質圖問題特征進行特征融合,在解碼部分使用我們設計的二分支評價函數以迭代的方式生成同時兼顧OCR標記和一般文本標記的答案。
所述文本視覺問答實現方法包括以下主要步驟:
(1)問題自我注意力模型將一個具有T個單詞的問題Q表示為詞向量通過預訓練的BERT網絡得到輸入單詞對應的融合全文語義信息的詞向量詞向量通過六個單獨的三層MLP網絡,同時每個網絡后緊接著softmax層,從而生成T個單詞對應六種組件的注意力權重的集合結合詞向量從而得到六個組件的分解的問題特征so,soo,sot,st,stt,sto。此外,將詞向量直接通過全連接層和softmax層得到六個組件的自我注意權重wo,woo,wot,wt,wtt,wto。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110370266.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三維立體環境監測系統
- 下一篇:一種可調節長度的手臂康復機器人





