[發明專利]一種基于深度神經網絡的智能視覺問答方法有效
| 申請號: | 201711494024.7 | 申請日: | 2017-12-31 |
| 公開(公告)號: | CN108170816B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 紀榮嶸;周奕毅 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 智能 視覺 問答 方法 | ||
1.一種基于深度神經網絡的智能視覺問答方法,其特征在于包括以下步驟:
步驟1、智能問答數據預處理,具體步驟為:
(1)將所有圖像尺度調整為448×448規格的分辨率;
(2)對所有訓練數據中的文本內容進行去停用詞處理,將所有英文詞匯進行小寫化;然后對文本內容進行分詞,從中選取出現頻率最高的8000個作為答案字典,并選取出現頻率最高的20000個詞匯作為圖像描述詞典;
步驟2、圖像深度卷積特征抽取,具體步驟為:
使用殘差深度卷積網絡對圖像卷積特征進行處理,獲取每張圖像的特征地圖,表示為FI∈R14×14×2048;此處14×14為圖像的特征區域,2048表示為每個特征塊的特征維度;
步驟3、文本問題深度特征抽取,具體步驟為:
使用雙向遞歸神經網絡對問題特征進行抽取,雙向遞歸神經網絡中的處理單位為LSTM單位;用神經網絡的每一方向傳播所獲得的最終隱層特征進行拼接獲得最終問題內容的特征fq,該特征表示為:
α=Soft max(hf||hb)
其中,N表示為遞歸網絡對每個問題處理的最大步數;
步驟4、智能視覺問題處理,具體步驟為:
(1)視覺內容堵塞處理:由于一張圖像的視覺表現內容豐富,為了讓機器更加關注與問題相關的視覺內容從而提升問題回答的準確性,采取了視覺內容堵塞操作;在獲取了圖像的卷積特征地圖FI和問題特征fq后,將兩個模態的特征投影到相同的語義空間中,然后使用點乘的方式進行特征融合;隨后使用Sigmoid激活函數對特征進行計算獲取圖像每個特征區域的權重值,并根據該權重值將卷積特征值進行更新獲取內容過濾后的新特征Fa1:
Fa1=A⊙FI
(2)圖像內容注意力機制操作:為了獲取有效的圖像特征,采用視覺注意力機制,根據所給定的文本內容鎖定圖像中最相關的視覺特征;在給定新的視覺卷積特征地圖Fa1和問題特征fq后,進行與步驟1相似的操作,獲取圖像精準視覺特征va2:
(3)圖像內容推理操作:在獲得了圖像精準視覺特征后,再次根據問題內容采用注意力機制進行問題邏輯推理;用精準視覺特征va2和問題特征fq進行融合,獲得進行的任務背景信息特征fj,用任務背景信息特征fj與視覺卷積特征地圖Fa1進行相互結合獲取新的特征塊權重值,然后加權獲取最終的視覺特征va3;用如下公式表示:
fj=σ(Ujfq⊙Vjva2)
(4)多模態特征結合并分類:在獲取最終的視覺特征va3和問題特征fq后,用語義映射方法將兩種特征結合獲得圖像與問題的共同特征fz,并將該特征輸入一多層感知機,然后用Softmax方法對最后的特征進行答案預測;獲得智能視覺通道下的預測答案;
步驟5、基于樞紐通道的視覺智能問答,具體步驟為:
(1)基于問題內容的圖像內容描述;
a)解析網絡初始特征生產:在獲取問題特征fq和內容過濾后的視覺卷積特征地圖Fa1后,對LSTM網絡進行隱層特征和背景特征生成方式進行修改,使用va3特征生成LSTM網絡的初始隱層特征和初始背景特征具體公式表示如下:
其中σ(·)為激活函數tanh;
b)圖像內容描述生成:使用LSTM網絡對特定的圖像內容進行解析;在生成的每一步當中,網絡的背景特征由圖像特征Fa1、問題特征fq和上一步網絡的隱層特征所決定,具體由公式表示為:
將當前的隱層特征、背景特征、文字的嵌入特征和問題特征映射到同一空間中,并根據特征的當前信息進行加權結合,隨后使用Softmax方法進行下一個單詞的預測,具體公式為:
βq=Sigmoid(Wqfq)
βc=Sigmoid(Wcci)
βe=Sigmoid(Weei-1)
wi=Soft max(Wsfh)
(2)基于問題視覺描述內容的答案生成:在獲取針對問題圖像內容的描述后,將這些文字輸入給一個雙向的LSTM網絡,獲取最終的描述特征fc;并將該特征與問題特征fq進行映射融合,然后進行答案的預測,獲取答案;用公式表示為:
fm=σ(Utfq⊙Vtfc)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711494024.7/1.html,轉載請聲明來源鉆瓜專利網。





