[發(fā)明專利]一種基于雙過程認知理論的知識圖譜視覺問答方法在審
| 申請?zhí)枺?/td> | 202110374169.3 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN115186072A | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計)人: | 何小海;劉露平;王美玲;卿粼波;陳洪剛;吳小強;滕奇志 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/532;G06V10/25;G06V10/774;G06V10/82;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 過程 認知 理論 知識 圖譜 視覺 問答 方法 | ||
1.一種基于雙過程認知理論的知識圖譜視覺問答,其特征在于,包括以下步驟:
(1)分別使用文本預(yù)訓(xùn)練模型BERT和目標(biāo)檢測模型Faster-RCNN對輸入文本和圖片進行特征提取,針對文本,在每個句子開頭和結(jié)束位置分別添加[CLS]和[SEP]標(biāo)志,然后送入BERT模型進行特征提取;針對每張圖片,提取36個目標(biāo)區(qū)域,每個目標(biāo)區(qū)域包含一個對象的外觀視覺特征以及對象在圖中的空間位置特征信息;
(2)將提取好的圖片和文本特征送入一個雙流的Transformer網(wǎng)絡(luò)來學(xué)習(xí)圖片和文本的聯(lián)合表示,其中一個單流的Transformer網(wǎng)絡(luò)用于學(xué)習(xí)圖片引導(dǎo)下的問題表征,而另外一個單流的Transformer模型用于學(xué)習(xí)問題引導(dǎo)下的圖片表征,最后將兩個雙流的Transformer網(wǎng)絡(luò)的輸出經(jīng)過平均池化后進一步進行相乘得到問題-圖像的聯(lián)合表征;
(3)事實圖和語義圖的構(gòu)建,針對每個問題-圖片對,分別構(gòu)建事實圖和語義圖,其中事實圖通過基于句子級別語義匹配的方式從外部知識庫中檢索備選支撐事實來構(gòu)建,而語義圖則首先通過對圖片進行語義描述,然后對生成的句子進行語義解析后構(gòu)建;
(4)基于圖推理的證據(jù)聚合,首先針對事實圖和語義圖,利用兩個帶有注意力機制的圖推理網(wǎng)絡(luò)分別從事實圖和語義圖中聚合證據(jù)信息,然后利用跨模態(tài)推理網(wǎng)絡(luò)從語義圖中聚合與問題相關(guān)的證據(jù)信息到知識圖中;
(5)答案預(yù)測,將問題-圖片的聯(lián)合表征與事實圖中每個節(jié)點的特征向量進行點乘計算后得到每個節(jié)點與問題的語義匹配度得分,最后將該匹配度得分送入一個Sigmoid層預(yù)測相應(yīng)的答案。
2.根據(jù)權(quán)利要求1所述方法,其特征在于(2)中問題-圖片的聯(lián)合表征學(xué)習(xí)方法,具體過程如下:
給定問題特征向量C和圖片特征向量V,將問題特征向量C和圖片特征向量V送入一個雙流的Transformer網(wǎng)絡(luò)中學(xué)習(xí)問題和圖片的復(fù)雜交互,其中一個單流的Transformer網(wǎng)絡(luò)用于學(xué)習(xí)圖片引導(dǎo)下的問題表示,另外一個單流的Transformer網(wǎng)絡(luò)用于學(xué)習(xí)問題引導(dǎo)下的圖片表示;在圖片引導(dǎo)下的問題表示學(xué)習(xí)中,將問題特征向量作為query向量,圖片特征向量作為key和value向量,圖片和問題的之間的依賴關(guān)系的計算公式如下:
公式(1)中的W′*表示模型待學(xué)習(xí)的參數(shù)矩陣;在問題引導(dǎo)下的圖片表示學(xué)習(xí)中,將圖片特征向量作為query向量,問題特征向量作為key和value向量,兩者之間的依賴關(guān)系的計算公式如下:
公式(2)中的W″*同樣表示模型待學(xué)習(xí)的參數(shù)矩陣;在經(jīng)過多層的(在本發(fā)明中,具體為9層)圖像和文本的聯(lián)合表征后,將文本序列的[CLS]位的特征作為整個問題-圖片的聯(lián)合表示特征。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于步驟(3)中的事實圖構(gòu)建方法,具體過程如下:
(1)針對每個問題-圖片對,首先將輸入問題與圖片中檢測出的對象的標(biāo)簽依次拼接,得到問題-圖片實例集合,然后將外部知識庫中的每條三元組轉(zhuǎn)換為一個自然語言句子,得到相應(yīng)的事實實例集合,轉(zhuǎn)換方法為將頭實體、關(guān)系和尾實體依次拼接后得到;
(2)將問題-圖片實例集合和與事實實例集合利用預(yù)訓(xùn)練的句子編碼器Universal-sentence-encoder進行編碼后得到相應(yīng)的實例表示;
(3)最后將問題-圖片實例集合中的每個實例對象的特征表示依次與事實實例對象的特征表示計算余弦相似度后得到相應(yīng)的關(guān)聯(lián)得分,最后根據(jù)余弦相似度得分對所有的實例對象進行排序,取得分最高的前10個實例作為備選支撐事實;
(4)根據(jù)檢索得到的備選支撐事實構(gòu)造事實圖,圖中的節(jié)點為知識庫中的實體,邊為兩個實體之間的關(guān)系,構(gòu)造好事實圖后,用BERT模型對節(jié)點和邊進行相應(yīng)的初始化表示,其中節(jié)點和邊的初始化表示為節(jié)點和邊中所有單詞的詞嵌入的平均。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于(4)中的證據(jù)聚合步驟,分為模態(tài)內(nèi)的證據(jù)聚合和模態(tài)間的證據(jù)聚合:
(1)在模態(tài)內(nèi)證據(jù)聚合時,首先利用本發(fā)明提出的包含雙重級別的注意力:節(jié)點級別注意力(Node-level)和路徑級別的注意力(Path-level)網(wǎng)絡(luò)進行特征選擇和聚合;在節(jié)點級別注意力計算過程中,首先計算圖中每個節(jié)點與問題-圖片聯(lián)合表征的注意力得分計算過程如下:
上式子中的W和b表示模型待學(xué)習(xí)的參數(shù)矩陣中以及偏置量,后面式子中的W和b均表示相同含義,將不再重復(fù)敘述;獲取注意力權(quán)重系數(shù)后將該注意力得分乘以圖中每個節(jié)點的初始特征向量得到基于圖片-問題引導(dǎo)后的節(jié)點特征表示;在路徑節(jié)點注意力計算過程中,主要關(guān)注哪條路徑對推理過程更加重要,其中每條路徑定義為與目標(biāo)節(jié)點直接相連的所以節(jié)點及邊構(gòu)成的路徑,其定義如下:
φij=(vi,rij,vj) (4)
其中vi,rij,vj分表表示事實圖中的頭節(jié)點的特征表示、關(guān)系的特征表示以及尾節(jié)點的特征表示,得到路徑表示后,路徑級別的注意力計算過程如下:
接著利用消息傳播機制從鄰居節(jié)點聚合特征,鄰居節(jié)點的特征聚合過程如下式所示:
最后將鄰居節(jié)點的特征與目標(biāo)節(jié)點的特征進行融合后進一步更新目標(biāo)節(jié)點的特征,為了防止鄰居節(jié)點的特征對節(jié)點特征的過度更新,設(shè)計了一個門控機制來控制鄰居節(jié)點特征與目標(biāo)節(jié)點原始特征的占比,整個目標(biāo)節(jié)點的特征更新過程如下式所示:
在語義圖中進行證據(jù)聚合的過程與事實圖中的步驟相同,這里不再重復(fù)敘述;
(2)模態(tài)間證據(jù)聚合,在進行模態(tài)間證據(jù)聚合時,首先在問題的引導(dǎo)下,計算事實圖中每個節(jié)點與語義圖中每個節(jié)點的注意力權(quán)重系數(shù),最后根據(jù)該注意力權(quán)重系數(shù)對語義圖中的每個節(jié)點特征進行加權(quán)求和后得到語義圖中的相關(guān)特征,相關(guān)的過程計算過程如下:
最后將從語義圖中聚合的特征向量與事實圖中節(jié)點的特征向量進行融合后得到跨模態(tài)融合后的新特征,同樣為了防止來自語義圖中的特征對事實圖節(jié)點特征的過度更新,設(shè)計相應(yīng)的門控機制來控制兩種不同模態(tài)特征所占的比例,具體過程計算公式如下:
最后將更新后的特征用于答案的推斷。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110374169.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種認知無線網(wǎng)絡(luò)系統(tǒng)和認知網(wǎng)元設(shè)備
- 認知無線電網(wǎng)絡(luò)中小區(qū)邊界用戶的頻譜共享方法
- 基于頻譜襯墊和填充的認知OFDM網(wǎng)絡(luò)資源分配方法
- 認知障礙數(shù)據(jù)處理方法以及處理系統(tǒng)
- 一種認知無線電頻譜共享方法、設(shè)備和系統(tǒng)
- 認知無線電系統(tǒng)的頻譜共享方法及管理終端
- 一種具有仿反饋調(diào)整機制的脫機手寫體漢字認知方法
- 一種基于人件服務(wù)的態(tài)勢認知計算架構(gòu)
- 一種認知評估的信息化方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種認知負荷評價方法、裝置、系統(tǒng)及存儲介質(zhì)





