[發明專利]用于視覺問答的系統和方法有效
| 申請號: | 201610952620.4 | 申請日: | 2016-11-02 |
| 公開(公告)號: | CN106649542B | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 陳侃;王江;徐偉 | 申請(專利權)人: | 百度(美國)有限責任公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/9032;G06K9/62 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;王艷春 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 視覺 問答 系統 方法 | ||
本文描述的是用于生成并且使用用于視覺問答任務(VQA)的基于關注的深度學習架構以對圖像(靜止圖像或視頻圖像)相關問題自動生成答案的系統和方法。為了生成正確的答案,模型的關注根據問題集中于圖像中的相關區域上是重要的,因為不同問題可能就不同圖像區域的屬性提問。在實施方式中,此類經問題引導的關注利用可配置的卷積神經網絡(ABC?CNN)學習。ABC?CNN模型的實施方式通過將圖像特征圖與通過問題語義確定的可配置的卷積內核卷積來確定關注圖。在實施方式中,經問題引導的關注圖集中于問題相關的區域上,并且過濾掉不相關區域中的噪聲。
技術領域
本發明大體上涉及計算技術,并且更具體地涉及用于自動進行對圖像相關問題的問答任務并改進人機對接的系統和方法。
背景技術
存在的問題是如何自動回答與圖像相關的問題。雖然已經嘗試了使用深度學習來使回答問題的過程自動進行,但是仍需顯著的提高。
因此,需要的是提供更有效且更準確的方式來自動回答與圖像相關的問題的系統和方法。
發明內容
本申請提供了一種改進對問題輸入生成的答案的準確性的計算機實施的方法、一種對圖像相關的問題生成答案的計算機實施的方法、以及一種改進對問題輸入生成的答案的準確性的裝置
根據本申請的一方面,提供了一種改進對問題輸入生成的答案的準確性的計算機實施的方法包括:接收圖像輸入;接收與圖像輸入相關的問題輸入;將問題輸入和圖像輸入輸入到基于關注的可配置卷積神經網絡框架中以生成答案,基于關注的可配置卷積神經網絡框架包括:圖像特征圖提取組件,包括從圖像輸入提取圖像特征圖的卷積神經網絡;語義問題嵌入組件,從問題輸入獲得問題嵌入;經問題引導的關注圖生成組件,接收圖像特征圖和問題嵌入,并且獲得集中于問題輸入所詢問的區域或多個區域的經問題引導的關注圖;以及答案生成組件,通過使用經問題引導的關注圖加權圖像特征圖,獲得經關注加權的圖像特征圖,并且基于圖像特征圖、問題嵌入和經關注加權的圖像特征圖的融合來生成答案。
根據本申請的另一方面,提供了一種對圖像相關的問題生成答案的計算機實施的方法,包括:使用深層卷積神經網絡從包括多個像素的輸入圖像提取圖像特征圖;使用長短期存儲器層從與輸入圖像相關的輸入問題中獲得密集問題嵌入;通過將密集問題嵌入從語義空間投影到視覺空間來產生多個經問題配置的內核;將經問題配置的內核與圖像特征圖卷積以生成經問題引導的關注圖;通過使用經問題引導的關注圖在空間上加權圖像特征圖,在多類別分類器處獲得經關注加權的圖像特征圖,經關注加權的圖像特征圖降低與輸入問題不相關的區域的權重;以及基于圖像特征圖、密集問題嵌入和經關注加權的圖像特征圖的融合對輸入問題生成答案。
根據本申請的再一方面,提供了一種改進對問題輸入生成的答案的準確性的裝置,包括:響應于接收問題輸入提取所述問題輸入的密集問題嵌入的裝置;響應于接收與所述問題輸入相關的圖像輸入生成圖像特征圖的裝置;至少基于所述圖像特征圖和所述密集問題嵌入生成經問題引導的關注圖的裝置,所述經問題引導的關注圖選擇性地集中于所述問題輸入所詢問的區域上;使用所述經問題引導的關注圖在空間上加權所述圖像特征圖以獲得經關注加權的圖像特征圖的裝置;以及將語義信息、所述圖像特征圖和所述經關注加權的圖像特征圖融合以對所述問題輸入生成答案的裝置。
附圖說明
將參考本發明的實施方式,它們的示例可示于附圖中。這些附圖旨在是說明性的而非限制性的。雖然本發明大體上在這些實施方式的上下文中描述,但應理解,本發明的范圍并不旨在限于這些特定實施方式。附圖中的項目未按比例繪制。
圖1示出根據本公開的實施方式的視覺問答中的關注的問題。
圖2描繪根據本公開的實施方式的示例性流程或框架。
圖3描繪根據本公開的實施方式的用于詢問處理的LSTM框架的實施方式的細節。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度(美國)有限責任公司,未經百度(美國)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610952620.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種動畫播放、生成方法及裝置
- 下一篇:記錄閱讀進度的方法、裝置及終端





