[發明專利]基于語言先驗問題識別和緩解的視覺問答預測方法及系統在審
| 申請號: | 201910407218.1 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110309850A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 程志勇;郭洋洋;劉一兵;聶禮強;宋雪萌;王英龍 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F11/36;G06N3/04;G06N5/02 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 先驗 視覺 語言 預測 測試語言 問題識別 答案 測試步驟 測試圖像 語言問題 測試 輸出 測試集 緩解 準確率 圖像 | ||
1.基于語言先驗問題識別和緩解的視覺問答預測方法,其特征是,包括:
測試步驟:將測試集的測試圖像、測試語言問題和測試語言答案,均輸入到初步訓練好的視覺問答模型中,對初步訓練好的視覺問答模型進行測試;在測試的過程中,根據模型輸出的語言答案的準確率計算語言先驗得分;如果語言先驗得分超過設定閾值,表示當前模型存在語言先驗問題,則重新對視覺問答模型進行訓練;如果語言先驗得分低于設定閾值,表示當前模型不存在語言先驗問題,即當前模型即為訓練好的視覺問答模型;
預測步驟:將待預測的圖像和語言問題,輸入到訓練好的視覺問答模型中,輸出最終的預測語言答案。
2.如權利要求1所述的方法,其特征是,所述方法的測試步驟之前,還包括:訓練步驟:將訓練集的訓練圖像、訓練語言問題和訓練語言答案,均輸入到視覺問答模型中,對視覺問答模型進行訓練,得到初步訓練好的視覺問答模型。
3.如權利要求2所述的方法,其特征是,所述方法的訓練步驟之前,還包括:視覺問答模型構建步驟:構建視覺問答模型,所述視覺問答模型,包括:卷積神經網絡、循環神經網絡、第一個多層感知機MLP和第二個多層感知機MLP,所述卷積神經網絡用于對圖像進行特征提取,提取第一圖像特征;
所述循環神經網絡對輸入的語言問題進行特征提取,提取語言問題特征;
將提取的第一圖像特征和語言問題特征同時輸入到注意力模型中再次進行特征提取,提取第二圖像特征;
將第二圖像特征輸入到第一個多層感知機MLP中,輸出第二圖像特征向量;
將第二圖像特征向量輸入到第二個多層感知機MLP中,輸出語言答案。
4.如權利要求1所述的方法,其特征是,重新對視覺問答模型進行訓練的過程中,基于正則化方法構造新的損失函數,新的損失函數等于原損失函數與分數限制損失函數的求和;當新的損失函數取得最小值時所對應的視覺問答模型即為訓練好的視覺問答模型。
5.如權利要求4所述的方法,其特征是,所述分數限制損失函數,等于0與設定差值二者中的最大值,所述設定差值等于輸出值Svqa與輸出值Sqa的差值;
所述輸出值Svqa是將第二圖像特征向量和語言答案特征向量融合后的特征向量輸入到第四個多層感知機得到的;
所述輸出值Sqa是將語言問題特征向量和語言答案特征向量融合后輸入到第五個多層感知機得到的;
所述語言問題特征向量是將語言問題特征輸入到第三個多層感知機得到的。
6.基于語言先驗問題識別和緩解的視覺問答預測系統,其特征是,包括:
測試模塊,其被配置為將測試集的測試圖像、測試語言問題和測試語言答案,均輸入到初步訓練好的視覺問答模型中,對初步訓練好的視覺問答模型進行測試;在測試的過程中,根據模型輸出的語言答案的準確率計算語言先驗得分;如果語言先驗得分超過設定閾值,表示當前模型存在語言先驗問題,則重新對視覺問答模型進行訓練;如果語言先驗得分低于設定閾值,表示當前模型不存在語言先驗問題,即當前模型即為訓練好的視覺問答模型;
預測模塊,其被配置為將待預測的圖像和語言問題,輸入到訓練好的視覺問答模型中,輸出最終的預測語言答案。
7.如權利要求6所述的系統,其特征是,訓練模塊重新訓練的過程中,基于正則化方法構造新的損失函數,新的損失函數等于原損失函數與分數限制損失函數的求和;當新的損失函數取得最小值時所對應的視覺問答模型即為訓練好的視覺問答模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心),未經山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910407218.1/1.html,轉載請聲明來源鉆瓜專利網。





