[發明專利]一種基于深度注意力機制的圖像描述生成方法有效
| 申請號: | 201711073398.1 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN108052512B | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 王瀚漓;方芳 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/56 | 分類號: | G06F40/56;G06N3/04;G06K9/62 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 葉敏華 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 注意力 機制 圖像 描述 生成 方法 | ||
本發明涉及一種基于深度注意力機制的圖像描述生成方法,所述方法包括:深度長短期記憶網絡模型建立步驟,通過在長短期記憶網絡模型的單元之間添加注意力機制函數,并利用卷積神經網絡提取的訓練圖片特征和訓練圖片的描述信息對添加了注意力機制函數的長短期記憶網絡進行訓練,得到深度長短期記憶網絡模型;圖像描述生成步驟,將待生成描述的圖像依次通過卷積神經網絡模型和深度長短期記憶網絡模型,生成與圖像對應的描述。與現有技術相比,本發明具有信息提取有效性強、深度表達能力高以及描述準確等優點。
技術領域
本發明涉及圖像理解領域,尤其是涉及一種基于深度注意力機制的圖像描述生成方法。
背景技術
圖像標題生成是一項極具挑戰性的工作,在嬰幼兒早期教育、視覺障礙輔助、人機交互等領域具有廣泛的應用前景。它結合了自然語言處理與計算機視覺兩個領域,將一副自然圖像使用自然語言的形式描述出來,或者說將圖像翻譯成自然語言。它首先要求系統能夠準確理解圖像中的內容,如識別出圖像中的場景、各種對象、對象的屬性、正在發生的動作及對象之間的關系等;然后根據語法規則及語言結構,生成人們能夠理解的句子。
人們已提出多種方法來解決這一難題,包括基于模板的方法、基于語義遷移的方法,基于神經機器翻譯的方法及混合方法等。隨著深度學習技術,尤其是CNN技術在語言識別和視覺領域連續取得突破,目前基于神經機器翻譯及其與其他視覺技術混合的方法已成為解決該問題的主流。這類方法考慮了CNN模型能夠提取抽象性及表達能力更強的圖像特征,能夠為后續的語言生成模型提供可靠的可視化信息。但這些方法過于依賴前期的視覺技術,處理過程復雜,對系統后端生成句子的語言模型優化不足;在使用LSTM單元生成句子時,其模型深度較淺(常使用1層或2層LSTM),生成的句子語義信息不強,整體性能難以改善。
發明內容
本發明的目的是針對上述問題提供一種基于深度注意力機制的圖像描述生成方法。
本發明的目的可以通過以下技術方案來實現:
一種基于深度注意力機制的圖像描述生成方法,所述方法包括:
深度長短期記憶網絡模型建立步驟,通過在長短期記憶網絡模型的單元之間添加注意力機制函數,并利用卷積神經網絡提取的訓練圖片特征和訓練圖片的描述信息對添加了注意力機制函數的長短期記憶網絡進行訓練,得到深度長短期記憶網絡模型;
圖像描述生成步驟,將待生成描述的圖像依次通過卷積神經網絡模型和深度長短期記憶網絡模型,生成與圖像對應的描述。
優選地,所述深度長短期記憶網絡模型建立步驟包括:
A1)將訓練圖片通過卷積神經網絡,得到訓練圖片的特征圖和特征向量;
A2)建立長短期記憶網絡模型,并在長短期記憶網絡模型的每兩個連接層之間添加注意力機制函數;
A3)將訓練圖片的描述信息和步驟A1)中得到的特征圖與特征向量,輸入到步驟A2)中添加了注意力機制函數的長短期記憶網絡模型后,對長短期記憶網絡模型進行訓練,得到深度長短期記憶網絡模型。
優選地,所述步驟A2)包括:
A21)通過設置輸入門、輸出門、遺忘門和記憶單元,構建長短期記憶網絡模型中的長短期記憶單元;
A22)設置長短期記憶網絡模型中每一個連接層的時間步長和隱層單元的個數;
A23)在長短期記憶網絡模型的每一個連接層的長短期記憶單元后添加注意力機制函數,所述注意力機制函數包括兩個輸入端和一個輸出端,所述兩個輸入端的維度分別與通過卷積神經網絡的特征圖的維度和隱層單元參數的維度相等,所述輸出端的維度與通過卷積神經網絡提取的訓練圖片特征向量維度相等。
優選地,所述長短期記憶網絡模型中每一個連接層的時間步長與所有訓練圖片的描述信息的平均句子長度相等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711073398.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種飛機水舵操縱系統
- 下一篇:一種防護掩體及其制備方法





