[發明專利]一種基于動態詞嵌入的多模態Transformer的圖像描述方法在審
| 申請號: | 202110537165.2 | 申請日: | 2021-07-19 |
| 公開(公告)號: | CN113344036A | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 曾凱;楊文瑞;朱艷;沈韜;劉英莉 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06T9/00;G06F40/30 |
| 代理公司: | 昆明同聚專利代理有限公司 53214 | 代理人: | 王遠同 |
| 地址: | 650000 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 嵌入 多模態 transformer 圖像 描述 方法 | ||
1.一種基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于,包括以下步驟:
(1)使用圖像特征提取器組件,選中圖像的顯著區域,對圖像進行圖像特征的提取:對圖像中的目標進行特征提取,生成更有意義的圖像特征矩陣;
(2)使用Transformer的圖像特征編碼器組件,對圖像特征進行編碼;
(3)使用文本特征編碼器,對文本信息進行包含上下文信息的特征提取與動態編碼:對輸入的文本進行處理,形成語句中包含上下文信息且語義更加豐富的詞向量表示,再經過基于掩碼的多頭注意力組件進行文本特征向量的生成;
(4)使用Transformer解碼器組件,使用多頭注意力層進行圖像信息與文本信息的相互學習,并生成對應的文本描述。
2.根據權利要求1所述基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于:步驟(1)中所述圖像的顯著區域,對圖像中的目標進行特征提取:對已經得到的圖像目標區域,使用PCA提取出圖像目標區域中的主要信息:
再將的得到的主要信息進行線性變化,使其變化到與輸入至下一步驟相同的特征維度:
其中I為圖像中的目標區域信息,為經過PCA分析后的主要信息,為經過PCA分析后的次要信息,X為最終的到的特征向量,WL為線性變化系數矩陣。
3.根據權利要求1所述基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于:步驟(2)中所述使用多模態Transformer的編碼器進行圖像特征的編碼,具體為:
Zf=TE(X) 3
公式中:X代表輸入的圖像數據,TE代表Transformer中的編碼操作。
4.根據權利要求1所述基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于:步驟(3)中所述對輸入的文本進行處理,形成語句中包含上下文信息且語義更加豐富的詞向量表示,具體為:首先將描述語句送入至ELMo詞嵌入編碼器中得到包含上下文信息且語義豐富的詞嵌入編碼,接著將描述語句輸入至標準詞嵌入編碼器,最后對輸入的語句進行特征表示進行注意力加權,生成包含上下文信息并且語義更加豐富的描述語句的詞向量Y:
Yelmo=ELMo(C) 4
Ynorm=Wn·C 5
其中Yelmo代表生成的ELMo詞嵌入矩陣,ELMo代表ELMo詞嵌入編碼操作,C代表描述語句生成的token矩陣,Wn代表線性變化的系數矩陣,Ynorm代表標準詞嵌入編碼器的得到的詞嵌入矩陣。
5.根據權利要求4所述基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于:所述對輸入的語句進行特征表示的注意力加權,具體為:使用注意力機制,對標準詞嵌入的詞向量以及ELMo詞嵌入的詞向量進行自注意力加權生成最終的詞向量,如下所示:首先通過自注意機制獲得標準詞嵌入與ELMo詞嵌入的注意力得分矩陣a:
a=SA(Ynorm,αYelmo)) 6
Y=a×Yelmo 7
其中a為所得的注意力得分矩陣,Ynorm代表標準詞嵌入編碼器的得到的詞嵌入矩陣;Yelmo代表生成的ELMo詞嵌入矩陣,α為權重匹配系數。
6.根據權利要求5所述基于動態詞嵌入的多模態Transformer的圖像描述方法,其特征在于:所述權重匹配系數α,每經過10000次迭代減少十倍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110537165.2/1.html,轉載請聲明來源鉆瓜專利網。





