[發明專利]一種視覺問答方法、裝置及存儲介質有效
| 申請號: | 202211619360.0 | 申請日: | 2022-12-16 |
| 公開(公告)號: | CN115618045B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 杜卿;杜雯靖;譚明奎;李利 | 申請(專利權)人: | 華南理工大學;廣東廣物互聯網科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/532;G06F16/9032;G06N5/02;G06F18/22;G06F18/24;G06F18/25 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 鄭宏謀 |
| 地址: | 510641 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視覺 問答 方法 裝置 存儲 介質 | ||
1.一種視覺問答方法,其特征在于,包括以下步驟:
將圖片和對應的問題文本作為輸入,通過多模態預訓練模型提取圖片特征和問題文本特征;
根據圖片特征和問題文本特征挖掘隱式知識,對隱式知識進行顯式建模,獲得隱式知識特征;
使用問題或者視覺對象標簽作為檢索關鍵詞,在知識庫中檢索外部知識,獲得顯式知識特征;
采用Transformer模型將隱式特征知識和顯式知識特征進行融合,獲得融合知識特征,根據融合知識特征進行答案推理;
所述使用問題或者視覺對象標簽作為檢索關鍵詞,在知識庫中檢索外部知識,獲得顯式知識特征,包括:
分別從知識模態內部和跨模態層面上對顯式知識進行降噪,以減少顯式知識的噪聲帶來的誤差;
其中,在知識模態內部:在候選知識集合中進行注意力機制計算,采用可學習參數來表示知識內部的自注意力更新過程的學習,即:
式中,表示更新后的外部知識特征,表示自注意力機制計算;
在跨模態層面上:將知識和視覺進行自注意力更新,使得模型能夠關注到與視覺內容相關的知識,以減少無關知識帶來的負面影響;其中,采用注意力操作來更新視覺和知識特征:
式中,表示自注意力更新過程的可學習參數,表示隱式知識的頭實體特征。
2.根據權利要求1所述的一種視覺問答方法,其特征在于,所述對隱式知識進行顯式建模,包括:
采用三元組的形式對所述隱式知識進行表征,一個隱式知識的三元組包括:頭實體特征,關系特征和尾實體特征;
其中,頭實體特征定義為與問題最相關的視覺對象;尾實體特征定義為答案;關系特征定義為圖片特征與問題文本特征融合之后的特征。
3.根據權利要求2所述的一種視覺問答方法,其特征在于,所述頭實體特征通過以下方式獲得:
對于輸入的圖像和問題文本,提取圖片特征和問題文本特征;其中,代表視覺對象的個數,代表圖片特征的維度;代表問題文本的單詞個數,代表文本特征的維度;表示特征空間;
將圖片特征和問題文本特征,輸入多模態預訓練模型中學習視覺和文本兩個模態內及模態之間的交互信息,以得到增強后的視覺表征和問題文本表征;
對w個單詞特征進行求平均,以得到問題句子的全局表征:
計算每個視覺對象與問題句子的全局表征之間的相似度,根據相似度獲取三元組的頭實體特征。
4.根據權利要求3所述的一種視覺問答方法,其特征在于,所述問題句子的全局表征的表達式如下:
式中,為多模態預訓練模型的輸出文本表征,代表求平均;
所述頭實體特征的表達式如下:
式中,是問題句子的全局表征,為視覺對象特征矩陣,為視覺對象特征矩陣轉置,為特征維度。
5.根據權利要求3所述的一種視覺問答方法,其特征在于,所述關系特征通過以下方式獲得:
對N個視覺對象的特征求平均,得到視覺全局表征;對視覺全局表征和問題句子的全局表征進行相乘,得到多模態的關系特征。
6.根據權利要求2所述的一種視覺問答方法,其特征在于,所述采用Transformer模型將隱式特征知識和顯式知識特征進行融合,獲得融合知識特征,包括:
將隱式知識的頭實體,關系表征組合在一起,將頭實體特征和關系特征進行求和,得到隱式知識特征;
采用可學習的參數embedding,與所述隱式知識特征和顯式知識特征進行拼接,得到輸入向量;
將輸入向量輸入Transformer模型進行融合,得到最終的融合知識特征cls。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學;廣東廣物互聯網科技有限公司,未經華南理工大學;廣東廣物互聯網科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211619360.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種儲能集裝箱加工用焊接設備
- 下一篇:一種連續油管用井下可視化系統





