[發明專利]視覺問答系統中圖像特征模塊端到端訓練方法及應用在審
| 申請號: | 202010563278.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111814843A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 王瀚漓;龍宇 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06F16/332 |
| 代理公司: | 上??剖⒅R產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 視覺 問答 系統 圖像 特征 模塊 端到端 訓練 方法 應用 | ||
1.一種視覺問答系統中圖像特征模塊端到端訓練方法,所述視覺問答系統基于視覺問答模型實現,所述視覺問答模型包括圖像特征模塊、時序神經網絡、融合推理模塊和答案生成模塊,其特征在于,所述訓練方法包括:
獲取視覺問答模型的初始模型參數;
獲取訓練圖像和對應的訓練文本序列;
對所述訓練圖像進行圖像特征抽取,并對所述訓練文本序列進行文本特征提取;
對所述圖像特征和文本特征進行特征融合,生成融合特征,基于所述融合特征生成輸出答案;
基于所述輸出答案與所述訓練圖像的初始答案計算答案誤差;
在所述視覺問答模型的其他部分優化方法不變的前提下,基于所述答案誤差以一階優化方法對所述圖像特征模塊進行參數調整。
2.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述獲取視覺問答模型的初始模型參數中,以預訓練過的卷積神經網絡模型作為圖像特征模塊,視覺問答模型的其他部分進行uniform隨機初始化或讀取預存儲的模型參數。
3.根據權利要求2所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述圖像特征抽取中,以最后一個卷積層的特征或者倒數第二個全連接層的特征作為圖像特征。
4.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述時序神經網絡包括循環神經網絡模組,所述訓練文本序列逐步輸入所述循環神經網絡模組中,以最后時間步的隱層特征或所有時間步的隱層特征的融合作為所述文本特征。
5.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述特征融合具體為:
對所述圖像特征和文本特征分別通過全連接層進行特征轉換,生成兩個同尺寸的隱層特征,對兩個隱層特征進行點乘獲得融合特征。
6.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述特征融合具體為:
對所述圖像特征和文本特征分別通過全連接層進行特征轉換,生成兩個不同尺寸的隱層特征,通過復制擴展將兩個隱層特征的尺寸調整至相同,將調整后的兩個隱層特征進行點乘生成融合隱層特征,以一個全連接層對所述融合隱層特征進行特征轉換,并通過另一個全連接層生成注意力特征,將所述注意力特征與圖像特征進行點乘融合生成最終的融合特征。
7.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述答案生成模塊包括用于進行特征轉換的全連接層和進行分類的softmax層。
8.根據權利要求1所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述參數調整過程中,以二階動量優化方法對整體的視覺問答模型進行優化設定代數后,更改圖像特征模塊的優化方法為一階優化方法,同時降低圖像特征模塊的學習率實現模型協同穩定收斂。
9.根據權利要求8所述的視覺問答系統中圖像特征模塊端到端訓練方法,其特征在于,所述圖像特征模塊的學習率降低為其他部分學習率的1/10。
10.一種視覺問答系統,其特征在于,該視覺問答系統所采用的視覺問答模型基于如權利要求1-9所述方法訓練獲得。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563278.5/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





