[發明專利]一種視覺問答方法、裝置及電子設備和存儲介質有效
| 申請號: | 202310078902.6 | 申請日: | 2023-02-08 |
| 公開(公告)號: | CN115861995B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 郭振華;金良;范寶余;徐聰;閆瑞棟;劉璐;姜金哲;尹云峰 | 申請(專利權)人: | 山東海量信息技術研究院 |
| 主分類號: | G06V20/62 | 分類號: | G06V20/62;G06V30/41;G06V30/19;G06V30/186;G06V10/82;G06N3/08;G06N3/045 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 250000 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視覺 問答 方法 裝置 電子設備 存儲 介質 | ||
1.一種視覺問答方法,其特征在于,包括:
獲取訓練樣本集;其中,所述訓練樣本集包括多個訓練樣本,所述訓練樣本包括圖像和對應的描述文本;
對所述訓練樣本中的描述文本進行重寫,生成正樣本和負樣本;其中,所述正樣本中圖像與文本匹配,所述負樣本中圖像與文本不匹配;
利用對象屬性檢測模型和BERT模型提取所述正樣本的多模態的圖文模態信息和所述負樣本的多模態的圖文模態信息;其中,所述對象屬性檢測模型為基于多尺度可變形注意力模塊搭建的雙階段Deformable?DETR模型;
檢索所述訓練樣本中的圖像的相似圖像,提取所述相似圖像的多模態的圖像特征信息作為圖像模態信息;
檢索所述訓練樣本中的描述文本的相似文本,提取所述相似文本的文本特征信息作為文本模態信息;
基于所述正樣本的圖文模態信息、所述負樣本的圖文模態信息、所述圖像模態信息和所述文本模態信息訓練視覺問答模型;
利用訓練完成的視覺問答模型執行視覺問答任務;
其中,還包括:
確定第一骨干網絡,構建單尺度可變形注意力模塊,并在所述單尺度可變形注意力模塊的基礎上添加多尺度,以構建多尺度可變形注意力模塊;
基于所述多尺度可變形注意力模塊分別構建所述骨干網絡中的RFN-Encode模塊和transformer?Encode模塊,并將所述transformer?Encode模塊作為header模塊;
基于訓練樣本集訓練所述第一骨干網絡,以生成目標檢測模型;
基于VG數據集訓練所述目標檢測模型,以生成所述對象屬性檢測模型;
其中,所述基于所述正樣本的圖文模態信息、所述負樣本的圖文模態信息、所述圖像模態信息和所述文本模態信息訓練視覺問答模型,包括:
基于所述正樣本的圖文模態信息、所述圖像模態信息和所述文本模態信息計算正樣本圖像與文本之間的第一跨模態距離;
基于所述正樣本的圖文模態信息、所述負樣本的圖文模態信息、所述圖像模態信息和所述文本模態信息計算正負樣本圖像與文本之間的第二跨模態距離;
基于所述第一跨模態距離和所述第二跨模態距離計算跨模態對比學習的損失值,并基于所述損失值更新所述視覺問答模型的模型參數,得到訓練完成的視覺問答模型。
2.根據權利要求1所述視覺問答方法,其特征在于,所述獲取訓練樣本集,包括:
獲取VG數據集,利用COCO數據集、OpenImagesV6數據集和Object365數據集對所述VG數據集進行擴展,將擴展后的數據集作為訓練樣本集。
3.根據權利要求2所述視覺問答方法,其特征在于,所述利用COCO數據集、OpenImagesV6數據集和Object365數據集對所述VG數據集進行擴展,包括:
剔除所述OpenImagesV6數據集中的負樣本得到第一中間數據集,在所述第一中間數據集中確定樣本數量大于第一閾值的第一目標類別,將所述第一中間數據集中第一目標類別的樣本收集至第二中間數據集;
在所述Object365數據集中確定樣本數量大于第二閾值的第二目標類別,將所述Object365數據集中第二目標類別的樣本收集至第三中間數據集;
基于所述COCO數據集中的樣本數量和所述第三中間數據集中的樣本數量計算第一比例,基于所述VG數據集中的樣本數量和所述第三中間數據集中的樣本數量計算第二比例;
按照第一預設比例在所述第二中間數據集中、按照第二預設比例在所述第三中間數據集中、按照所述第一比例在所述COCO數據集中、按照所述第二比例在所述VG數據集中選擇樣本組成擴展后的數據集。
4.根據權利要求3所述視覺問答方法,其特征在于,所述基于所述COCO數據集中的樣本數量和所述第三中間數據集中的樣本數量計算第一比例,基于所述VG數據集中的樣本數量和所述第三中間數據集中的樣本數量計算第二比例,包括:
計算所述第三中間數據集中的樣本數量與所述COCO數據集中的樣本數量之間的第一比值,將所述第一比值的兩倍作為第一比例;
計算所述第三中間數據集中的樣本數量與所述VG數據集中的樣本數量之間的第二比值,將所述第二比值的兩倍作為第二比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東海量信息技術研究院,未經山東海量信息技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310078902.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電池組件以及鋰離子電池
- 下一篇:一種磁性扭力器





