[發明專利]結合抽象語義表示的圖像描述生成方法、系統及介質有效
| 申請號: | 202010581219.0 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111612103B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 唐晉韜;陳鳳;李莎莎;龐焜元;王挺;王攀成;林登雯;何亮亮;徐欽杭 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/24;G06N3/0442;G06N3/092;G06F40/30;G06F40/126;G06F40/284 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 抽象 語義 表示 圖像 描述 生成 方法 系統 介質 | ||
1.一種結合抽象語義表示的圖像描述生成方法,其特征在于,該方法采用預先完成訓練的語言生成器來根據輸入的圖像生成對應的圖像描述,且訓練語言生成器的步驟包括:
1)針對訓練數據集進行抽象語義表示標注,包括:1.1)輸入帶有標注語句的訓練數據集,采用AMR解析器將訓練數據集的標注語句為對應的抽象語義表示圖,將每個抽象語義表示圖表示為概念三元組的序列,表示抽象語義表示圖中邊,其中表示圖G中的結點,E表示邊,h、l和t分別表示圖中每條邊的首結點、邊屬性標簽和尾結點;1.2)將訓練數據集中所有的抽象語義表示圖的三元組信息進行統計匯總,并將相同含義的結點進行合并;僅保留在所有結果出現次數大于預設閾值的結點,其他結點替換為指定的符號;
2)基于帶有抽象語義表示的訓練數據集訓練抽象語義表示預測器;
3)將圖像的候選區域視覺特征作為圖像的視覺特征,圖像的抽象語義表示特征作為語義特征,這兩種特征同時作為基于注意力機制的語言生成器的輸入、訓練語言生成器;
4)使用訓練好的語言生成器對測試集圖像中的圖像生成圖像描述;
5)針對語言生成器進行效果評測;
所述抽象語義表示預測器為基于雙重注意力機制的LSTM模型,步驟2)的詳細步驟包括:
2.1)針對訓練數據集中的每一張圖像分別獲取候選框,并提取每個候選框內局部圖像的特征表示向量,將候選向量集作為該圖像的視覺特征,得到視覺特征集V;
2.2)設計基于雙重注意力機制的LSTM模型作為抽象語義表示預測器,所述基于雙重注意力機制的LSTM模型包括用于預測結點的結點預測LSTM和用于預測關系屬性標簽的標簽預測LSTM,在模型訓練的每一時間步,結點預測LSTM的輸入包括:上一時間步的輸出,視覺特征集V、全局視覺特征和上一時間步生成的首結點;標簽預測LSTM的輸入則為:視覺特征集V、全局視覺特征和上一時間步生成的關系屬性標簽;將結點預測LSTM、標簽預測LSTM為一起訓練,且訓練過程中采用聯合交叉熵損失函數訓練模型作為損失函數;設置訓練過程中每一步的批次大小、輸入映射維度和LSTM隱層大小,然后在訓練數據集上完成對抽象語義表示預測器的訓練;
2.3)使用訓練好的抽象語義表示預測器對訓練數據集提取抽象語義特征,并將圖像的視覺特征及其對應的抽象語義表示特征進行對齊;
所述基于注意力機制的語言生成器包括依次相連的LSTM層、雙重注意力層、語言生成LSTM層和softmax層;其中LSTM層為標準LSTM層,其輸入包含四部分:LSTM層上一時間步的輸出,語言生成LSTM層上一時間步的輸出,全局視覺特征和上一時間步的生成的詞;雙重注意力層的第一重注意力針對視覺特征,LSTM層的輸出和視覺特征V作為注意力層輸入,第二重注意力使用三個注意力層分別針對抽象語義表示三元組序列的首結點/關系屬性標簽/尾結點序列進行計算;第一重注意力和第二重注意力計算注意力權重向量,,令權重向量為,歸一化為,則注意力結果為;其中//分別為參數矩陣,為圖像的第i個區域特征,為LSTM在t時間的輸出,和為激活函數,為對應圖像的視覺特征集;語言生成LSTM層為線性映射層,用于將連接之后的抽象語義表示的三個注意力結果映射到低維,其輸入為:LSTM層當前時間步的輸出,語言生成LSTM層上一時間步的輸出,視覺注意力結果為和抽象語義表示注意力結果為;層用于將語言生成LSTM層的輸出計算在詞表上對應單詞的概率,從而獲取本時間步生成的單詞;所述基于注意力機制的語言生成器的訓練目標為最小化如下交叉熵損失:,其中分別表示個樣例中第張圖像視覺特征集、三元組序列信息和全局視覺特征,為模型參數,表示模型參數為并在條件下生成的概率,表示對數函數,表示對到求和。
2.根據權利要求1所述的結合抽象語義表示的圖像描述生成方法,其特征在于,步驟3)中訓練語言生成器時,首先設置訓練過程中每一步的批次大小、輸入映射維度和LSTM隱層大小,然后在訓練數據集上完成對語言生成器的N1輪訓練并保存語言生成器的模型;然后使用強化學習技術,損失函數的參數設置同樣使用交叉熵損失函數的模型,繼續訓練語言生成器N2輪,每指定數量個批次保存語言生成器的模型,并對比當前模型和最好模型,如若當前模型在驗證集效果更好,則更新最好模型為當前模型,從而最終完成語言生成器的訓練,得到完成訓練后的語言生成器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581219.0/1.html,轉載請聲明來源鉆瓜專利網。





