[發明專利]一種視覺問答預測方法、系統及存儲介質在審
| 申請號: | 202110136865.0 | 申請日: | 2021-02-01 |
| 公開(公告)號: | CN112948609A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 楊超;馮溯;蔣斌 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06K9/62;G06N3/04 |
| 代理公司: | 長沙正奇專利事務所有限責任公司 43113 | 代理人: | 馬強;王娟 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視覺 問答 預測 方法 系統 存儲 介質 | ||
1.一種視覺問答預測方法,其特征在于,包括以下步驟:
S1、獲取待提問的圖像v,對圖像進行特征提取,獲得區域視覺特征fv(v);獲取關于圖像的自然語言問題q,對所述自然語言問題進行特征提取,獲得問題特征fq(q);
S2、構建偏差模型,以所述自然語言問題q為偏差模型的輸入,捕獲語言偏差b;
S3、利用所述區域視覺特征fv(v)、問題特征fq(q)、語言偏差b、標準的視覺問答模型獲取第一預測內容利用所述區域視覺特征fv(v)、問題特征fq(q)獲取第二預測內容其中,集成方法nnb是線性神經網絡,輸出一個權重值;⊙表示逐元素相乘;Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用兩個線性神經網絡分別映射dq維的問題特征向量和dv維的區域視覺特征向量到一個公共空間然后將映射成相同維度的兩種模態特征向量的逐元素乘積饋入到分類器Ccx;為以圖像v和問題q為輸入,模型獲得的預測答案分布;
S4、利用下式獲取最終的預測答案
2.根據權利要求1所述的視覺問答預測方法,其特征在于,還包括:
S5、將所述最終的預測答案代入損失函數當所述損失函數收斂時,固化所述內容模塊和上下文模塊的參數,并將此時得到的預測答案表達式作為最終的預測模型。
3.根據權利要求2所述的視覺問答預測方法,其特征在于,所述損失函數的表達式為:
其中,其中i表示視覺問答數據集中第i個樣本,vi,qi,bi分別表示第i個樣本的圖像、問題和語言偏差;表示第i個樣本對應的最終的預測答案;yi表示第i個圖像與問題所對應的答案標簽值,表示一個取值為0到1之間的,維數為的向量,該向量維數與視覺問答數據集中不同答案的數量相等;r是超參數,N表示樣本總數,σ(·)表示sigmoid函數;B(·)是將第i個圖像與問題所對應的語言偏差bi轉化為標簽的函數,
4.一種視覺問答預測系統,其特征在于,包括:
區域視覺特征提取網絡,用于對待提問的圖像v進行特征提取,獲得區域視覺特征fv(v);
循環神經網絡,用于獲取關于圖像q的自然語言問題,對所述自然語言問題進行特征提取,獲得問題特征fq(q);
偏差模型,以所述自然語言問題q為偏差模型的輸入,捕獲語言偏差b;
標準的視覺問答模型,以圖像和自然語言問題為輸入,輸出預測答案分布內容模塊,用于利用所述區域視覺特征fv(v)、問題特征fq(q)、語言偏差b、標準的視覺問答模型獲取第一預測內容其中,nnb是線性神經網絡,輸出一個權重值;⊙表示逐元素相乘;
上下文模塊,用于利用所述區域視覺特征fv(v)、問題特征fq(q)獲取第二預測內容其中,Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用兩個線性神經網絡分別映射問題特征向量和區域視覺特征向量到一個公共空間然后將映射成相同維度的兩種模態特征向量的逐元素乘積饋入到分類器Ccx;
聯合預測模塊,用于融合所述內容模塊和上下文模塊的輸出,獲得預測模型。
5.根據權利要求4所述的視覺問答預測系統,其特征在于,還包括:
優化模塊,用于將所述最終的預測答案代入損失函數當所述損失函數收斂時,固化所述內容模塊和上下文模塊的參數,并將此時得到的預測答案表達式作為最終的預測模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110136865.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能微分精密分條治具
- 下一篇:一種阻燃抗靜電羊毛混紡面料





