[發明專利]基于異質圖神經網絡的文本視覺問答實現方法在審
| 申請號: | 202110370266.5 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113094484A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 高晨雨;朱琪;王鵬 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 呂湘連 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 異質圖 神經網絡 文本 視覺 問答 實現 方法 | ||
1.基于異質圖神經網絡的文本視覺問答實現方法,其特征在于,所述網絡結構分為問題自我注意力模型、異質圖注意力模型和全局-局部注意力應答模型三部分;
所述問題自我注意力模型基于BERT網絡,獲取文本問題的詞向量特征,再通過六分類網絡將問題特征分解為六個子組件,包括對象(object,o),對象-對象關系(object-object,oo),對象-文本關系(object-text,ot),文本(text,t),文本-文本關系(text-text,tt),文本-對象關系(text-object,to),并提取每個組件的分解的問題特征和自我注意力權重;
所述異質圖注意力模型受圖卷積網絡的啟發而設計,從輸入圖像中提取對象和文本相關信息并構建異質圖,使用前一步得到的分解的問題特征采用注意力機制對異質圖進行推理,得到結點和邊的注意力權重和異質圖問題特征;
所述全局-局部注意力應答模型使用transformer將分解的問題特征和異質圖問題特征進行特征融合,在解碼部分使用我們設計的二分支評價函數以迭代的方式生成同時兼顧OCR標記和一般文本標記的答案;
所述文本視覺問答實現方法包括以下主要步驟:
(1)問題自我注意力模型將一個具有T個單詞的問題Q表示為詞向量通過預訓練的BERT網絡得到輸入單詞對應的融合全文語義信息的詞向量詞向量通過六個單獨的三層MLP網絡,同時每個網絡后緊接著softmax層,從而生成T個單詞對應六種組件的注意力權重的集合結合詞向量從而得到六個組件的分解的問題特征so,soo,sot,st,stt,sto;此外,將詞向量直接通過全連接層和softmax層得到六個組件的自我注意權重wo,woo,wot,wt,wtt,wto;
(2)異質圖注意力模型從圖像中構建異質圖其中是圖像中N個對象結點的集合,是圖像中M個文本結點的集合,ε={eij}是兩個獨立結點之間的關系的集合;之后采用注意力機制,使用不同的問題特征更新異質圖的不同部分;根據分解的問題特征so,soo,sot,st,stt,sto得到六個組件的異質圖注意力權重po,poo,pot,pt,ptt,pto和從單獨對象中提取的特征從文本區域提取的特征
(3)將六個組件的自我注意權重wo,woo,wot,wt,wtt,wto和異質圖注意力權重po,poo,pot,pt,ptt,pto結合得到對象的綜合注意力權重和文本的綜合注意力權重將對象和文本的綜合注意力權重和從對象和文本中提取的特征和結合得到問題條件下對象和文本的異質圖特征gobj和gtext;
(4)全局-局部注意力應答模型采用迭代的方式,每次將問題的分解的問題特征so,soo,sot,st,stt,sto,對象的異質圖特征gobj,文本的異質圖特征gtext和OCR特征輸入到transformer層進行特征融合,融合后的特征輸入到二元分支評價函數預測答案;答案空間是兩部分的結合:包含5000個詞的固定詞典和從每個特定的圖像中提取的動態OCR特征;選擇最高的分數作為結果;在第一次迭代中,將融合特征作為輸入,而在剩下迭代步驟中,使用前一個更新的輸出作為輸入進行迭代解碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110370266.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三維立體環境監測系統
- 下一篇:一種可調節長度的手臂康復機器人





