[發明專利]一種基于膠囊自-導協同注意力機制的視覺問答方法在審
| 申請號: | 202110778207.1 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113515615A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 浦俊;韓亞洪 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06K9/62;G06N3/04;G06N3/08;G06N20/00;G06F16/33;G06F16/583 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 膠囊 協同 注意力 機制 視覺 問答 方法 | ||
本發明公開了一種基于膠囊自?導協同注意力機制的視覺問答方法,從互聯網上下載圖像數據,針對每個圖像提出問題并給出答案,以此形成圖像,問答對,構造視覺問答數據集;對圖像數據進行預處理,然后提取圖像數據的深度卷積特征;對文本數據進行預處理,然后提取文本數據的深度特征;基于膠囊自?導協同注意力機制學習圖像和問題文本的聯合表征;把學到的聯合表征進行拆分再學習,以獲得更為精簡的聯合表征,并通過該聯合表征預測出合適的答案。本發明能夠準確獲取圖像和文本之間的聯合表征;在一定程度上減少了模型的參數量,使得模型更加容易訓練,且不容易過擬合。
技術領域
本發明涉及問答系統、計算機視覺,尤其涉及一種基于膠囊自-導協同注意力機制的視覺問答方法。
背景技術
視覺問答任務通常會向計算機展示一些視覺信息(如圖片或視頻),并提出關于該視覺信息的問題讓計算機回答。根據數據集和具體任務的不同,答案有很多種形式:一個詞、一個短語、一個判斷(是/否)、從提供的可能選項中選擇或是一個填空。如今,隨著5G、無人駕駛、AR/VR以及直播帶貨,短視頻等領域的多點開花蓬勃發展,人們需要面對急速膨脹的視覺信息。一直以來,視覺問答都是計算機視覺和多媒體分析的熱點。
與傳統的文本問答相比,視覺問答方法的核心和難點是需要同時處理視覺數據和問題的文本數據。目前,主流的方法是采用協同注意力機制來對多種不同模態的特征進行融合。在仍然存在的問題中,其中之一就是為了追求更高的準確率和更強的性能,各模型的參數量開始劇增,造成了兩大缺陷:第一,現有的模型越來越難以訓練;第二,在比較小的數據集上,現有的模型容易過擬合。此外,由于深度學習模型的黑盒效應,導致視覺問答任務的可解釋性往往難以給出。以上種種,極大限制了現有的視覺問答方法在更大范圍內的推廣和使用。
如何找到有效的方法從給定的視覺數據中獲取信息、并結合給定的問題獲取答案,是本發明亟待解決的問題。
發明內容
為了改善視覺問答任務現有的不足,本發明提出一種基于膠囊自-導協同注意力機制的視覺問答方法,基于膠囊自-導協同注意力機制實現了更緊湊更高效的視覺問答,在一定程度上緩解現有技術存在的模型參數量龐大的問題。
本發明的一種基于膠囊自-導協同注意力機制的視覺問答方法,該流程具體包括以下步驟:
步驟1,從互聯網上下載圖像數據,針對每個圖像提出問題并給出答案,以此形成圖像,問答對,構造視覺問答數據集;
步驟2,對圖像數據進行預處理,然后由檢測區域中的圖像數據提取圖像數據的平均池化卷積特征作為物體特征;該步驟具體包括:針對圖像數據,對圖像中能檢測到的物體的概率設置置信度閾值,將輸入圖像特征集表示為m表示物體的數量,dx表示在X這個集合里每個特征的維度;
步驟3,對文本數據進行預處理,然后提取文本數據的深度特征,具體處理如下:
所述預處理具體包括:對文本數據進行去分隔詞處理、詞匯轉換成小寫、句子裁剪;
構成問題中的單詞被送入一個300維的GloVe詞嵌入,將詞嵌入再送入含有dy個隱藏單元的單層LSTM網絡,提取單層LSTM網絡的最后一個隱狀態的輸出作為整個問題的深度特征;
步驟4,進行基于膠囊自-導協同注意力機制學習圖像和問題文本的聯合表征;該步驟具體包括以下處理:
構造兩個組件即自注意力組件Self-Attention和引導注意力組件Guided-Attention;
給定一個輸入圖像集合特征多頭注意力層捕捉成對的輸入樣本xi,xj之間的配對關系,然后計算出被關注的特征Z∈Rn×d;
接著,多頭注意力層的輸出特征被送入前饋神經網絡,通過實現動態路由過程學習到聯合表征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110778207.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種離子檢測方法
- 下一篇:內容搜索方法、裝置、設備和存儲介質





