[發明專利]一種基于多目標關聯深度推理的圖像問答方法有效
| 申請號: | 201910398140.1 | 申請日: | 2019-05-14 |
| 公開(公告)號: | CN110263912B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 余宙;俞俊;汪亮 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N5/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多目標 關聯 深度 推理 圖像 問答 方法 | ||
本發明公開了一種基于多目標關聯深度推理的圖像問答方法。本發明包括以下步驟:1、對圖像和以其自然語言描述的文本進行數據預處理,2、基于候選框幾何特征增強的適應性注意力模塊模型,進行各目標的注意力機制重排序。3、基于AAM模型的神經網絡結構。4、模型訓練,利用反向傳播算法訓練神經網絡參數。本發明提出一種針對圖像問答的深度神經網絡,特別是提出一種對圖像?問題文本的數據進行統一建模,在圖像中各目標特征上進行推理,對各目標的注意力機制重排序從而更精確地對問題進行回答的方法,并且在圖像問答領域中的獲得較好效果。
技術領域
本發明涉及一種針對圖像問答(Visual Question Answering)任務的深度神經網絡結構,尤其涉及一種對圖像-問答的數據進行統一建模,尋找圖像內各實體特征和相對應空間位置幾何特征之間的相互作用關系,通過對它們之間的位置關系建模,達到適應性調整注意力權重的方法。
背景技術
圖像問答是一項交叉計算機視覺和自然語言處理的新興任務。該任務旨在通過給定一個與圖像相關的問題,讓機器能自動回答相應的答案。和另一計算機視覺和自然語言處理的交叉任務——圖像描述相比,需要機器能夠通過理解圖像和問題并推理得到正確的結果,因此圖像問答任務無疑更為復雜。如“她的眼鏡是什么顏色?”這樣的句子包含了豐富的語義信息。機器為了回答這一問題,首先需要在圖像中定位到女性眼部所在的區域,然后根據“顏色”這一關鍵詞進行回答。再如“胡須是由什么制作的?”這一問題,機器需要無法直接找到胡須所在位置,但是可以根據人臉的位置估計到胡須應該在的區域并對該區域進行關注。然后根據關鍵詞“制作”回答這一問題。
隨著深度學習在近年來的迅速發展,使用深度卷積神經網絡(ConvolutionalNeural Networks,CNN)或深度循環神經網絡(Recurrent Neural Networks,RNN)進行端到端(end-to-end)地建模成為目前計算機視覺和自然語言處理領域的主流研究方向。在圖像問答算法的研究過程中,引入端到端建模的思想,同時對圖像使用適當的網絡結構進行端到端建模,讓計算機根據輸入的問題和圖像自動回答是一個值得深入探索的研究問題。
多年來,在計算機視覺領域中已經充分認識到上下文信息或對象之間的關聯關系有助于模型的增強。但是大多數使用該信息的方法都在深度學習的普及之前。目前的深度學習時代,利用對象之間的關系信息,特別是圖像問答領域并沒有取得重大進展,大多數方法仍然專注于分別對實體施加關注。由于圖像內物體具有二維空間位置和尺度/縱橫比等變化,而圖像問答模型需要依賴實體間的相互關系對問題進行推理。因此物體的位置信息也即一般意義上的幾何特征在圖像問答模型中起著復雜且重要的作用。
在實際應用方面,圖像問答算法具有廣泛的應用場景。隨著可穿戴智能硬件(如Google glasses和微軟的HoloLens)以及增強現實技術的快速發展,在不久的將來,基于視覺感知的圖像內容自動問答系統可能會成為人機交互的一種重要方式。在這項技術可以幫助我們,尤其是那些有視覺障礙的殘疾人更好地感知和理解世界
綜上所述,基于端到端建模的圖像問答算法是一個值得深入研究的方向,本課題擬從該任務中幾個關鍵的難點問題切入,解決目前方法存在的問題,并最終形成一套完整的圖像問答系統。
由于自然場景下的圖像內容復雜,主體多樣;基于自然語言的描述自由度高,這使得圖像內容描述面臨巨大的挑戰。具體而言,主要存在如下兩方面的難點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910398140.1/2.html,轉載請聲明來源鉆瓜專利網。





