[發明專利]一種基于多目標關聯深度推理的圖像問答方法有效
| 申請號: | 201910398140.1 | 申請日: | 2019-05-14 |
| 公開(公告)號: | CN110263912B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 余宙;俞俊;汪亮 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多目標 關聯 深度 推理 圖像 問答 方法 | ||
1.一種基于多目標關聯深度推理的圖像問答方法,其特征在于包括如下步驟:
步驟(1)、數據預處理,對圖像和文本數據提取特征
首先是對圖像預處理:
使用Faster-RCNN深度神經網絡結構檢測圖像中包含的目標實體;對圖像提取視覺特征V以及圖像中包含各目標尺寸、坐標信息的幾何特征G;
對文本數據進行預處理:
統計給定的問題文本的句子長度根據統計信息設置問題文本的最大長度;構建問題文本詞匯字典,將問題的詞語替換為描述詞匯字典中的索引值,然后經過LSTM,從而將問題文本轉化為向量q;
步驟(2)、基于候選框幾何特征增強的注意力模塊
對于輸入的三個特征候選框位置的幾何特征G、視覺特征V和注意力權重向量向量m;
首先對注意力權重向量向量m進行順序編碼,將其根據權值大小順序轉化為向量后,映射到高維度與同樣映射到高維度的視覺特征V相加,其輸出經過層歸一化處理得到VA;
然后將幾何特征G通過線性層映射后經過激活函數ReLU得到GR;將VA和GR輸入候選框關系組件進行推理得到Orelation,將Orelation經過線性層和sigmoid函數與原始的注意力權重向量向量m相乘得到新的注意力權重向量向量
步驟(3)、構建深度神經網絡
首先將問題文本中根據詞匯字典轉換為索引值向量;然后將該向量經過高維映射傳入長短期記憶網絡(Long Short Term Memory,LSTM),將其輸出的向量q和使用Faster R-CNN獲得的視覺特征V通過哈達瑪積(Hadamard product)的方式融合,并通過注意力模塊得到各實體特征的注意力權重向量m;將注意力權重向量m、視覺特征V以及幾何特征G輸入基于候選框幾何特征增強的適應性注意力模塊,利用視覺特征和候選框位置的幾何特征進行推理,對注意力權重向量進行重排序,得到新的注意力權重向量將注意力權重向量與視覺特征V乘積融合后做加權平均得到新的視覺特征將視覺特征與問題文本向量q通過哈達瑪積融合經過softmax函數產生概率,并將此概率輸出作為網絡的輸出預測值;
步驟(4)、模型訓練
根據產生的預測值同該圖像的實際描述的差異,并利用反向傳播算法對步驟(3)中神經網絡的模型參數進行訓練,直至整個網絡模型收斂。
2.根據權利要求1所述的一種基于多目標關聯深度推理的圖像問答方法,其特征在于步驟(1)具體實現如下:
1-1.對圖像i進行特征提取,使用現有的深度神經網絡Faster-RCNN提取特征,提取的特征包括圖像中包含的k個目標的視覺特征V和幾何特征G,其中V={v1,v2,...,vk},G={g1,g2,...,gk},k∈[10,100]且單個目標的視覺向量為單個目標的幾何特征為gi={x,y,w,h},其中其中x,y,w,h為幾何特征的位置參數,分別表示圖像中實體所在候選框的橫坐標、縱坐標以及寬度和高度;
1-2.對于給定的問題文本,首先統計數據集中問題文本中不同的詞,并將其記錄在字典中;根據單詞字典將單詞列表中的詞語轉化成索引值,從而將問題文本轉化成固定長度的索引向量,其具體公式如下:
其中是單詞wk在字典中的索引值,l表示問題文本的長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910398140.1/1.html,轉載請聲明來源鉆瓜專利網。





