[發明專利]基于視覺與語義注意力相結合策略的圖像描述方法及系統有效
| 申請號: | 201710806029.2 | 申請日: | 2017-09-08 |
| 公開(公告)號: | CN107563498B | 公開(公告)日: | 2020-07-14 |
| 發明(設計)人: | 王雷全;褚曉亮;魏燚偉;吳春雷;崔學榮 | 申請(專利權)人: | 中國石油大學(華東) |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/46 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 266580 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視覺 語義 注意力 相結合 策略 圖像 描述 方法 系統 | ||
1.基于視覺與語義注意力相結合策略的圖像描述方法,其特征是,包括:
步驟(1):利用卷積神經網絡CNN從待生成圖像描述的圖像中提取圖像特征V;
步驟(2):建立視覺注意力模型,判斷是否是首次執行,若是,則將步驟(1)的圖像特征V輸入到視覺注意力模型中,得到經過視覺注意力模型處理后的圖像特征Vatt;若不是,則將步驟(1)的圖像特征V和t-1時刻語義注意力模型生成的單詞Wt-1輸入到視覺注意力模型中,得到經過視覺注意力模型處理后的圖像特征Vatt;
步驟(3):建立第一個LSTM網絡,稱之為LSTM1網絡,LSTM1網絡是指供視覺注意力模型使用的LSTM網絡;將LSTM1網絡的t-1時刻的隱藏層狀態和經過視覺注意力模型處理以后的圖像特征Vatt送入LSTM1網絡,得到視覺注意力模型在t時刻產生的單詞Wt';
步驟(4):建立語義注意力模型,將視覺注意力模型在t時刻產生的單詞Wt'與預定義的標簽A一起輸入到語義注意力模型中;得到語義注意力模型在t時刻生成的語義信息Et;所述標簽是指預先從訓練集每幅圖像對應的描述圖像內容的句子中根據需要提取出的若干個關鍵詞;所述關鍵詞為圖像對應的語義信息,所述關鍵詞包括名詞和動詞;
步驟(5):建立第二個LSTM網絡,稱之為LSTM2網絡,LSTM2網絡是指供語義注意力模型使用的LSTM網絡;將LSTM2網絡在t-1時刻的隱藏層的狀態和語義注意力模型在t時刻生成的語義信息Et輸入到LSTM2網絡中,得到語義注意力模型在t時刻生成的單詞Wt;
步驟(6):判斷是否檢測到停止標識,若是,則將得到的所有單詞進行串聯組合,產生圖像描述;若不是,則用步驟(5)得到的單詞Wt更新步驟(2)中的Wt-1;同時返回步驟(2),繼續執行步驟(2)-(5),直至檢測到停止標識;
所述步驟(4)語義注意力處理函數:
對視覺注意力模型在t時刻產生的單詞Wt'和語義輔助的標簽A進行權重β的分配:
其中,(Wt',A)表示將Wt'與A連接為一個矩陣;表示語義注意力模型中第i個詞在t時刻的權重;
對β進行歸一化處理:
表示語義注意力模型中第k個詞在t時刻的權重,z表示標簽里的詞的個數;
生成對當前句子語義的狀態Et:
所述步驟(5)的公式為:
2.如權利要求1所述的基于視覺與語義注意力相結合策略的圖像描述方法,其特征是,所述步驟(2)的公式:
Vatt=fvatt(V),t=0; (1-1)
Vatt=fvatt(V,Wt-1),t≥1; (1-2)
其中,fvatt(·)表示視覺注意力處理函數,t為整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東),未經中國石油大學(華東)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710806029.2/1.html,轉載請聲明來源鉆瓜專利網。





