[發明專利]基于推敲注意力機制的圖像描述生成系統及方法有效
| 申請號: | 201910004805.6 | 申請日: | 2019-01-03 |
| 公開(公告)號: | CN109726696B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 宋井寬;樊凱旋;高聯麗 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06V20/20 | 分類號: | G06V20/20;G06V10/774;G06V30/262 |
| 代理公司: | 成都希盛知識產權代理有限公司 51226 | 代理人: | 陳澤斌 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 推敲 注意力 機制 圖像 描述 生成 系統 方法 | ||
1.基于推敲注意力機制的圖像描述生成方法,應用于基于推敲注意力機制的圖像描述生成系統中,所述系統包括編碼器、基于推敲注意力機制的解碼器和增強學習模塊;
所述編碼器,用于采用預訓練好的ResNet-101來提取圖像的全局特征,結合預訓練好的Faster?R-CNN和ResNet-101來提取局部特征;
所述基于推敲注意力機制的解碼器,包括兩層基于殘差注意力機制的解碼器,其中,第一層解碼器用于生成粗略的圖像描述,第二層解碼器應用校正的過程來潤色第一層解碼器已生成的圖像描述;
所述增強學習模塊,用于在訓練過程中模擬模型的測試過程,并且以生成描述的CIDEr分數來引導模型的訓練,結合強化學習對模型進行調整;
其特征在于,該方法包括以下步驟:
a.數據集的處理:
提取圖像的全局特征和局部特征;構建數據集,對數據集中的單詞進行標記,生成對應的詞嵌入向量;
b.訓練圖像描述生成模型:
采用第一層基于殘差注意力機制的解碼器生成粗略的圖像描述,采用第二層基于殘差注意力機制的解碼器對已生成的圖像描述進行潤色;
c.結合強化學習進一步訓練模型:
在訓練過程中模擬模型的測試過程,并且以生成描述的CIDEr分數來引導模型的訓練,結合強化學習對模型進行調整;
步驟b具體包括:
將圖像的全局特征和描述中單詞對應的詞嵌入向量輸入第一層基于殘差注意力的解碼器,解碼器中的遞歸神經網絡計算隱藏狀態,通過隱藏狀態計算注意力權重,并加權到圖像的局部特征;加權后的局部特征和隱藏狀態被輸入到第二層基于殘差注意力的解碼器中執行類似操作,第二層基于殘差注意力的解碼器生成的隱藏狀態和被加權的局部特征輸入到歸一化指數函數來預測下一個單詞;重復上述的步驟,直到生成結束符即可得到一個完整的描述。
2.如權利要求1所述的方法,其特征在于,
步驟a中,用于采用預訓練好的ResNet-101來提取圖像的全局特征,結合預訓練好的Faster?R-CNN和ResNet-101來提取局部特征。
3.如權利要求1所述的方法,其特征在于,
步驟a中,所述對數據集中的單詞進行標記,生成對應的詞嵌入向量,具體包括:根據數據集中單詞出現頻率的順序,為每一個單詞標上序號作為每個單詞的獨熱編碼,以生成對應的詞嵌入向量。
4.如權利要求1所述的方法,其特征在于,
步驟b中,在計算獲得隱藏狀態后,通過殘差連接結合詞嵌入向量和隱藏狀態。
5.如權利要求1所述的方法,其特征在于,
步驟c具體包括:
利用圖像的全局特征和RNN提取的描述特征,通過計算兩個特征的相似度,訓練一個檢索模型;
將訓練的圖像描述生成模型生成的描述輸入檢索模型,獲取檢索圖像,通過計算檢索圖像與訓練圖像的全局特征之間的相似度,計算對比損失函數CL;
根據訓練的圖像描述生成模型生成的描述和真實描述計算圖像描述評價CIDER;
將CL和CIDER作為獎賞,結合強化學習進一步優化圖像描述生成模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910004805.6/1.html,轉載請聲明來源鉆瓜專利網。





