[發明專利]一種基于條件嵌入預訓練語言模型的圖像標題生成方法有效
| 申請號: | 202110292541.6 | 申請日: | 2021-03-18 |
| 公開(公告)號: | CN113139575B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 張旻;林培捷;李鵬飛;姜明;湯景凡 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06V10/40;G06N3/04;G06N3/08;G06V10/774;G06V10/764 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 條件 嵌入 訓練 語言 模型 圖像 標題 生成 方法 | ||
1.一種基于條件嵌入預訓練語言模型的圖像標題生成方法,其特征在于包括以下步驟:
步驟(1)使用目標檢測方法Faster RCNN對圖像進行目標檢測,并將檢測結果作為構建圖像的關鍵詞集合,將關鍵詞集合和特殊字符組成輸入序列,輸入序列通過詞嵌入的方式進行輸入,構建關鍵詞嵌入網絡KEN;
步驟(2)使用預訓練的圖像提取模型ResNet對圖像進行特征提取,構建特征編碼網絡;對圖像進行編碼,將編碼結果通過條件嵌入的方式進行輸入,構建視覺嵌入網絡VEN;
步驟(3)針對預訓練語言模型,transformer中的LN層已有現成的、無條件的g和b,且g和b用于對特征施加增益和偏置操作時,都是固定長度的向量;通過VEN將圖像編碼為g',b';
g',b'跟g,b具有相同的維度,將VEN的編碼結果g',b'分別加到g和b上去,構建條件嵌入歸一化層CELN;
步驟(4)將KEN和VEN的編碼結果分別作為預訓練語言模型的序列輸入和條件嵌入;用CELN替換UNILM的transformer中所有的LN層,構建CE-UNILM模型;
步驟(5)對CE-UNILM模型進行訓練,挑選最優訓練模型;將圖片輸入訓練好的CE-UNILM模型,輸出對應的圖像標題;
所述步驟(3)具體實現過程如下:
3-1計算特征x在LN層的歸一化統計量均值μ和方差σ,特征x通過均值μ和方差σ,可以得到歸一化后的特征值為x',如公式(5)所示:
其中,ε是一個很小的小數,防止除0;
3-2在LN中需要一組參數來保證歸一化操作不會破壞之前的信息,在LN中這組參數叫做增益g和偏置b,LN的輸出如公式(6)所示;
fLN(x')=g☉x'+b (6)
合并公式(5),(6),LN層最終輸出,如公式(7)所示;
3-3對于transformer來說,已經有現成的、無條件的g和b了,它們都是長度固定的向量;VEN將圖像特征編碼到跟g和b一樣的維度,然后將兩個編碼結果g'和b'分別加到g和b上去如公式(8)(9)所示;
3-4通過CELN獲得新特征為計算過程如公式(10)所示;
其中,μ和σ是分別是均值和方差;
步驟(4)所述具體實現過程如下:
4-1將KEN作為預訓練語言模型UNILM的輸入,VEN的結果作為預訓練語言模型UNILM的條件輸入,用CELN替換UNILM中transformer的所有的LN層;
4-2將步驟4-1中KEN、VEN以及加入了CELN的UNILM模型進行組合,構建CE-UNILM模型。
2.根據權利要求1所述的一種基于條件嵌入預訓練語言模型的圖像標題生成方法,其特征在于所述步驟(1)具體實現過程如下:
1-1使用在Visual Genome數據集上預訓練的Faster RCNN對圖像進行目標提取;Faster RCNN能夠獲得目標類別以及相應目標在圖像中的區域;為了用于圖像標題生成任務,取模型最終類別輸出并得到關鍵詞集合W={w1,w2,…,ws};其中,ws是通過目標檢測算法對圖像提取的類別如公式(1)所示;
W=Faster RCNN(I) (1)
1-2獲取關鍵詞集合W后,將W和三個特殊標記組合為輸入序列S;三個特殊標記分別為:[CLS]、[SEP]和[STOP];其中[CLS]放在第一個關鍵字之前,要在句子A之前加[CLS]標志;[SEP]用于分開兩個輸入句子,在句子A后面且句子B前面增加[SEP]標志;[STOP]放在句子結束,表示句子結束,在句子A后面加[STOP]標志;
1-3將步驟1-1中目標檢測所獲得的類別ws進行編碼,維度為768;若N為輸入序列S的最終序列長度,則S的維度為768*N。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110292541.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:識別系統和識別方法
- 下一篇:一種基于視覺嵌入和條件歸一化的圖像描述方法





