[發明專利]一種多模態場景圖知識增強的對抗式多模態預訓練方法在審
| 申請號: | 202210962059.3 | 申請日: | 2022-08-11 |
| 公開(公告)號: | CN115331075A | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 余宙;羅同桉;俞俊;袁柳;劉弋鋒;許勝新 | 申請(專利權)人: | 杭州電子科技大學;中國電子科技集團公司電子科學研究院 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/764;G06V10/80;G06V10/82;G06F40/30;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多模態 場景 知識 增強 對抗 式多模態預 訓練 方法 | ||
1.一種多模態場景圖知識增強的對抗式多模態預訓練方法,其特征在于包括如下步驟:
步驟(1):構建圖像區域的特征表示及圖像先驗知識;
步驟(2):構建文本及跨模態先驗知識;
步驟(3):構建多模態場景圖;
步驟(4):構建對抗式噪聲生成網絡與多模態預訓練網絡;
步驟(5):多模態場景圖知識增強的對抗式預訓練。
2.根據權利要求1所述的一種多模態場景圖知識增強的對抗式多模態預訓練方法,其特征在于步驟(1)所述的構建圖像區域的特征表示及圖像先驗知識,實現如下:
對于數據集中的每一張圖像,使用訓練好的目標檢測網絡抽取圖像中包含的一系列物體和它們對應的視覺特征、空間位置,并作為圖像區域的特征表示;通過物體的空間位置計算得到圖像區域之間的相對位置信息以及圖像區域之間的相對空間關聯信息,將相對位置信息并作和相對空間關聯信息為圖像的先驗知識。
3.根據權利要求1所述的一種多模態場景圖知識增強的對抗式多模態預訓練方法,其特征在于步驟(2)所述的構建文本及跨模態先驗知識,實現如下:
對于數據集中的每組圖文對,使用訓練好的場景圖生成器提取文本描述中的對象詞集合、屬性詞集合和關系詞集合,并根據在數據集上統計的共現頻率記錄每個對象詞與其相關的屬性詞、關系詞之間的語義關聯,這些語義關聯構成了文本先驗知識;
對于數據集中的每組圖文對,對每個圖像區域都計算其目標類目對應的類別文本與每個對象詞之間的語義相似度,并將語義相似度作為圖像區域和文本詞語之間的語義關聯信息,并作為跨模態先驗知識的表示。
4.根據權利要求1所述的一種多模態場景圖知識增強的對抗式多模態預訓練方法,其特征在于步驟(3)所述的構建多模態場景圖,實現如下:
多模態場景圖由圖像場景圖、文本場景圖以及跨模態關聯圖構成;其中圖像場景圖中的頂點為圖像區域,邊的權重是圖像先驗知識的量化表示;文本場景圖中的頂點是文本詞語,邊的權重是文本先驗知識的量化表示;跨模態關聯圖的頂點是圖像區域和文本詞語,邊的權重是跨模態先驗知識的量化表示;最終的多模態場景圖將由一個鄰接矩陣表示。
5.根據權利要求1或2所述的一種多模態場景圖知識增強的對抗式多模態預訓練方法,其特征在于步驟(1)進一步實現如下:
對于數據集中的每一張圖像,使用在Visual Genome數據集上訓練好的Faster R-CNN目標檢測網絡抽取圖像中包含的至多M個物體和它們對應的空間位置,其中第m個物體的空間位置表示為視覺特征表示為預測的物體類目表示為其中位置坐標和視覺特征將作為圖像區域的特征表示;
通過任意兩個區域框之間的相對位置進行建模來生成相對位置關系信息;將第i個對象的空間位置定義為(xi,yi,wi,hi),該四維坐標分別表示對象的中心點橫縱坐標、寬、高;第i個對象和第j個對象之間的相對空間關系特征表示為具體公式如下:
通過任意兩個區域框之間的IoU來表示相對空間關聯信息,具體公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學;中國電子科技集團公司電子科學研究院,未經杭州電子科技大學;中國電子科技集團公司電子科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210962059.3/1.html,轉載請聲明來源鉆瓜專利網。





