[發明專利]一種基于深度神經網絡的智能視覺問答方法有效
| 申請號: | 201711494024.7 | 申請日: | 2017-12-31 |
| 公開(公告)號: | CN108170816B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 紀榮嶸;周奕毅 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 神經網絡 智能 視覺 問答 方法 | ||
一種基于深度神經網絡的智能視覺問答模型,涉及人工智能領域中的智能視覺問答。包括以下步驟:智能問答數據預處理;圖像深度卷積特征抽取;文本問題深度特征抽取;智能視覺問題處理;基于樞紐通道的視覺智能問答。采用多任務學習框架進行全新的深度學習網絡設計以解決智能視覺問答中訓練數據缺乏與回答原因不可知等兩大問題。設計了一新型的深度學習網絡結構,該網絡在進行智能視覺問答的同時能夠對給出的答案進行原因說明,該網絡結構包含一視覺描述模塊,可根據問題內容針對性地對圖像內容進行描述。該網絡結構采用了樞紐結構設計,能將圖像描述、文本問答等領域的數據引入到視覺智能問答任務中來。
技術領域
本發明涉及人工智能領域中的智能視覺問答,尤其是涉及一種基于深度神經網絡的智能視覺問答方法。
背景技術
視覺智能問答(Visual Question Answering)是今年來計算機科學屆提出的一個機器終極智能任務。它的任務內容為基于一張給定圖像的內容來回答由人類提出的自然語言問題。該任務在2010年由卡耐基梅隆大象的Bigham等人在《User Interface Softwareand Technology》進行首次提出[1]。2015年,佛吉尼亞理工學院的Stanislaw Antol等人在國際視覺會議ICCV發布了第一個針對視覺智能問答的大規模數據集,該數據集在亞馬遜線上平臺上由人工制作而成,數據內容包含了人類自然的問答習慣[2]。隨著此數據集的發布,視覺智能問答從2015年起至今獲得了學術界和工業屆的巨大關注。
智能視覺問答代表這人工智能研究的一個新頂峰,是人類逼近人類智慧的一個重要體現。由于智能視覺問答任務內容的特殊性,該研究方向的發展往往基于計算機視覺和自然語言處理等兩大領域的最新研究進展。與傳統的文本問答或者多模態研究問題相比,視覺智能問答往往要求機器模型對視覺和文本內容進行了解,并能在內容獲取的基礎上做出邏輯推理以完成最終的人類問答。視覺智能問答同時具有巨大的工業應用場景,這些場景包括了:智能在線問答、無人駕駛、智能裝備以及視覺殘疾人障礙輔助。
2015年,Antol等人對智能視覺問答任務提出了一個基準模型,該模型通過深度卷積神經網絡獲取圖片的高級視覺語義特征,并將該視覺語義特征作為遞歸神經網絡的初始輸入與文本特征進行傳遞與學習[2]。Ma等人采用卷積網絡對圖像與文本特征進行高級語義特征抽取,并用卷積方式對兩個模態的特征進行融合,用最終的融合特征進行答案預測[3]。2016年,Yang等人[4]在國際視覺與模式識別會議上提出了基于多步驟推理的智能視覺問答模型,該模型采用了2015年Benjio[5]提出的視覺注意力機制對圖像重要內容進行關注,并首次使用了多步關注的設計獲得更好的任務特征。Lu等人對該問答注意力機制進行了拓展,提出了對圖像內容和問題內容進行架構化關注的模型[6]。Fukui等人采用了緊湊雙線性池化操作對視覺特征和問題特征進行融合,并通過擴大訓練數據的方式極大的提高了視覺智能問答的性能。
雖然智能視覺問答在近兩年中獲得了極大的發展,但仍然存在有兩大問題。首先是訓練數據的不足:現有的智能視覺問答數據集的數據規模雖然達到了100萬左右,但與傳統的圖像分類、目標檢測等任務相比仍具有巨大的差距;此外,智能視覺問答的模型參數往往數以千萬級,小量的訓練數據往往未能充分發揮模型的性能。另一個問題是機器提供的問題答案不具備解釋性:由于深度學習模型的黑盒設計,導致機器的做出回答的理由與原因往往難以給出;該情形會極大限制智能視覺問答在工業屆中的推廣與使用。
參考文獻:
[1]Bigham J P,Jayant C,Ji H,et al.VizWiz:nearly real-time answers tovisual questions[C].user interface software and technology,2010:333-342.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711494024.7/2.html,轉載請聲明來源鉆瓜專利網。





