[發(fā)明專利]一種視覺問答方法、裝置及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202211619360.0 | 申請日: | 2022-12-16 |
| 公開(公告)號: | CN115618045B | 公開(公告)日: | 2023-03-14 |
| 發(fā)明(設(shè)計)人: | 杜卿;杜雯靖;譚明奎;李利 | 申請(專利權(quán))人: | 華南理工大學(xué);廣東廣物互聯(lián)網(wǎng)科技有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/532;G06F16/9032;G06N5/02;G06F18/22;G06F18/24;G06F18/25 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 鄭宏謀 |
| 地址: | 510641 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視覺 問答 方法 裝置 存儲 介質(zhì) | ||
本發(fā)明公開了一種視覺問答方法、裝置及存儲介質(zhì),其中方法包括:將圖片和對應(yīng)的問題文本作為輸入,通過多模態(tài)預(yù)訓(xùn)練模型提取圖片特征和問題文本特征;根據(jù)圖片特征和問題文本特征挖掘隱式知識,對隱式知識進行顯示建模,獲得隱式知識特征;在知識庫中檢索外部知識,獲得顯式知識特征;將隱式特征知識和顯式知識特征進行融合,獲得融合知識特征,根據(jù)融合知識特征進行答案推理。本發(fā)明對隱含在模型內(nèi)部以及數(shù)據(jù)集中的隱式知識進行顯式建模,能夠進一步挖掘和補充對預(yù)訓(xùn)練模型知識的利用,另外,引入了外部知識,可以結(jié)合補充的常識知識,輔助模型做進一步的推理,從而提高推理的準(zhǔn)確率。本發(fā)明可廣泛應(yīng)用于視覺問答領(lǐng)域。
技術(shù)領(lǐng)域
本發(fā)明涉及視覺問答領(lǐng)域,尤其涉及一種視覺問答方法、裝置及存儲介質(zhì)。
背景技術(shù)
基于知識的視覺問答任務(wù)要求模型具有關(guān)聯(lián)外部知識的能力,來實現(xiàn)開放式跨模態(tài)場景理解。而現(xiàn)有方法的局限性沒有充分利用人工標(biāo)注良好的知識庫,僅根據(jù)輸入的問題文本和圖片來回答問題,缺乏顯式的外部知識。其次,對于引入了外部知識的方法,大多從純文本知識庫里面檢索相關(guān)的知識,而這些知識庫僅包含了由一階謂詞或語言描述表示的事實,而缺乏用于視覺理解的復(fù)雜的高階的多模態(tài)知識,沒有充分挖掘蘊含在模型內(nèi)部的隱式知識。
發(fā)明內(nèi)容
為至少一定程度上解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一,本發(fā)明的目的在于提供一種視覺問答方法、裝置及存儲介質(zhì)。
本發(fā)明所采用的技術(shù)方案是:
一種視覺問答方法,包括以下步驟:
將圖片和對應(yīng)的問題文本作為輸入,通過多模態(tài)預(yù)訓(xùn)練模型提取圖片特征和問題文本特征;
根據(jù)圖片特征和問題文本特征挖掘隱式知識,對隱式知識進行顯示建模,獲得隱式知識特征;
使用問題和視覺對象標(biāo)簽等作為檢索關(guān)鍵詞,在知識庫中檢索外部知識,獲得顯式知識特征;為了進一步減少顯式知識的噪聲帶來的誤差,分別從知識模態(tài)內(nèi)部和跨模態(tài)層面上對顯式知識進行降噪;
采用Transformer模型將隱式特征知識和顯式知識特征進行融合,獲得融合知識特征,根據(jù)融合知識特征進行答案推理。
進一步地,所述對隱式知識進行顯示建模,包括:
采用三元組的形式對所述隱式知識進行表征,一個隱式知識的三元組包括:頭實體特征,關(guān)系特征和尾實體特征;
其中,頭實體特征定義為與問題最相關(guān)的視覺對象;尾實體特征定義為答案;關(guān)系特征定義為圖片特征與問題文本特征融合之后的特征。
進一步地,所述頭實體特征通過以下方式獲得:
對于輸入的圖像和問題文本,提取圖片特征和問題文本特征;其中,代表視覺對象的個數(shù),代表圖片特征的維度;代表問題文本的單詞個數(shù),代表文本特征的維度;表示特征空間;
將圖片特征和問題文本特征,輸入多模態(tài)預(yù)訓(xùn)練模型中學(xué)習(xí)視覺和文本兩個模態(tài)內(nèi)及模態(tài)之間的交互信息,以得到增強后的視覺表征和問題文本表征;
對個單詞特征進行求平均,以得到問題句子的全局表征:
計算每個視覺對象與問題句子的全局表征之間的相似度,根據(jù)相似度獲取三元組的頭實體特征。
進一步地,所述問題句子的全局表征的表達式如下:
式中,為多模態(tài)預(yù)訓(xùn)練模型的輸出文本表征,代表求平均;
所述頭實體特征的表達式如下:
式中,是得到的頭實體特征特征,是問題句子的全局特征,為視覺對象特征矩陣,為視覺對象特征矩陣轉(zhuǎn)置,為特征維度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué);廣東廣物互聯(lián)網(wǎng)科技有限公司,未經(jīng)華南理工大學(xué);廣東廣物互聯(lián)網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211619360.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





