[發明專利]一種基于深度殘差網絡和LSTM的圖像理解方法有效
| 申請號: | 201611226528.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106650813B | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 胡丹;袁東芝;余衛宇;李楚怡 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 44245 廣州市華學知識產權代理有限公司 | 代理人: | 李斌<國際申請>=<國際公布>=<進入國 |
| 地址: | 510640廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 網絡 lstm 圖像 理解 方法 | ||
本發明公開了一種基于深度殘差網絡和LSTM的圖像理解方法。所述方法首先構建一個深度殘差網絡模型提取圖像的抽象特征并保存為特征矩陣;然后LSTM模型中的動態注意機制根據特征矩陣動態地生成合適的特征向量,最后LSTM模型根據特征向量生成成自然語言(英語)。本發明利用了深度殘差網絡在圖像特征提取和LSTM對時序序列建模方面的優勢,深度殘差網絡和LSTM模型成了一個編碼?解碼框架,將圖像內容信息轉化成自然語言,達到提取圖像的深層次信息的目的。
技術領域
本發明涉及圖像語義理解、深度學習領域,特別是一種基于深度殘差網絡和LSTM(Long Short-term Memory)的圖像理解方法。
背景技術
圖像理解是指對圖像語義的理解。它是以圖像為對象,知識為核心,研究圖像中何位置有何目標、目標之間的相互關系、圖像是何場景的一門科學。
圖像理解輸入的是圖像數據,輸出的是知識,屬于圖像處理研究領域的高層內容。其重點是在圖像目標識別的基礎上進一步研究圖像中各目標的性質及其相互關系,并得出對圖像內容含義的理解以及對原來客觀場景的解釋,進而指導和規劃行為。
目前常用的圖像理解方法主要是基于底層特征與分類器相結合的方法,先使用小波變換、尺度不變特征變換(SIFT)、邊緣提取等圖像處理算法對圖像進行特征提取,然后使用潛在狄利克雷分布(LDA)、隱馬爾科夫模型(HMM)、支持向量機(SVM)等圖像識別和推理算法對提取出的特征進行分類識別并建立語義模型。從算法實現上來看,目前常用的圖像理解算法存在泛化性差、魯棒性低、局部依賴性強、實現困難、識別率低等缺點。
發明內容
本發明公布了一種基于深度殘差網絡和LSTM的圖像理解方法,該方法利用了深度殘差網絡在圖像特征提取和LSTM對時序序列建模方面的優勢,深度殘差網絡和LSTM模型成了一個編碼-解碼框架,將圖像內容信息轉化成自然語言,達到提取圖像的深層次信息的目的。
本發明的目的通過以下的技術方案實現:基于深度殘差網絡和LSTM的圖像理解方法,其特征在于:應用于從輸入圖像中提取抽象特征的深度殘差網絡模型、根據抽象特征生成自然語言的LSTM模型;具體包括如下步驟:
S1:下載訓練數據集;
S2:對步驟S1數據集中的數據進行預處理;
S3:訓練深度殘差網絡模型;
S4:訓練LSTM模型;
S5:用步驟S3中訓練好的深度殘差網絡模型提取待識別圖像的抽象特征;
S6:將步驟S5中提取的特征輸入到步驟S4訓練好的LSTM模型中,LSTM模型根據特征生成自然語言。
優選的,步驟S1中下載訓練數據集:分別從http://www.image-net.org、http://mscoco.org這兩個網站下載ImageNet、MS-COCO公共圖像數據集;ImageNet數據集分為訓練圖像集和測試圖像集,MS-COCO數據集分為訓練圖像集合測試圖像集,對應的,每張圖片有5個用于描述其內容信息的自然語句。
優選的,步驟S2預處理包括對ImageNet數據集和MS-COCO數據集兩種情況:
對于ImageNet數據集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-類別”對作為一個數據;
對于MS-COCO數據集,預處理的步驟如下:
S2.1、將每一個自然語句與其對應的圖像成對保存,一個“圖像-自然語言語句”對作為一個數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611226528.6/2.html,轉載請聲明來源鉆瓜專利網。





