[發明專利]一種基于深度殘差網絡和LSTM的圖像理解方法有效
| 申請號: | 201611226528.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106650813B | 公開(公告)日: | 2019-11-15 |
| 發明(設計)人: | 胡丹;袁東芝;余衛宇;李楚怡 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46 |
| 代理公司: | 44245 廣州市華學知識產權代理有限公司 | 代理人: | 李斌<國際申請>=<國際公布>=<進入國 |
| 地址: | 510640廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 網絡 lstm 圖像 理解 方法 | ||
1.一種基于深度殘差網絡和LSTM的圖像理解方法,其特征在于:應用于從輸入圖像中提取抽象特征的深度殘差網絡模型、根據抽象特征生成自然語言的LSTM模型;具體包括如下步驟:
S1:下載訓練數據集;
S2:對步驟S1數據集中的數據進行預處理;
S3:訓練深度殘差網絡模型;
S4:訓練LSTM模型;
S5:用步驟S3中訓練好的深度殘差網絡模型提取待識別圖像的抽象特征;
S6:將步驟S5中提取的特征輸入到步驟S4訓練好的LSTM模型中,LSTM模型根據特征生成自然語言語句。
2.根據權利要求1所述的一種基于深度殘差網絡和LSTM的圖像理解方法,其特征在于,所述的步驟S1中的數據集為下載ImageNet、MS-COCO兩個公共圖像數據集。
3.根據權利要求1所述的一種基于深度殘差網絡和LSTM的圖像理解方法,其特征在于,步驟S2預處理包括對ImageNet數據集和MS-COCO數據集兩種情況:
對于ImageNet數據集:每一張圖像,將圖像縮放到256×256大小,然后從圖像上中下左右5處截取5張大小為224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的類別成對保存,一個“標準尺寸圖像-類別”對作為一個數據;
對于MS-COCO數據集,預處理的步驟如下:
S2.1、將每一個自然語言語句與其對應的圖像成對保存,一個“圖像-自然語言語句”對作為一個數據;
S2.2、將“圖像-自然語言語句”對中的圖像維持長寬比不變并縮放,剪成224×224的標準尺寸圖像,并將標準尺寸圖像與其相對應的自然語言語句成對保存,一個“標準尺寸圖像-自然語言語句”對作為一個數據;
S2.3、統計所有自然語言語句中出現過的單詞,去重,排序,單詞總個數記為K;用1×K的列向量來表示所有單詞,列向量中下標為單詞序號處置1,其他位置0,這樣一個向量稱為單詞向量,所有的“單詞-單詞向量”對構成一個長度為K的字典DIC;
S2.4、將“圖像-自然語言語句”對中的自然語言語句用基于字典DIC的單詞向量表示,一個長度為C的自然語言語句y可以表示為:
4.根據權利要求1所述的一種基于深度殘差網絡和LSTM的圖像理解方法,其特征在于,所述步驟S3中深度殘差網絡模型的結構包含多層卷積塊、池化層、全連接層和softmax分類器;在每個卷積塊中,先用批歸一化方法對數據歸一化,然后使用修正線性單元對數據進行非線性變換,最后進行卷積操作。
5.根據權利要求1或4所述的一種基于深度殘差網絡和LSTM的圖像理解方法,其特征在于,所述步驟S3中訓練深度殘差網絡模型使用隨機梯度下降和反向傳播方法,用預處理后的ImageNet數據集中“標準尺寸圖像-類別”對作為樣本;對于每個樣本,標準尺寸圖像在網絡中向前傳播,經過softmax層后輸出預測類別,再將預測類別與實際類別的差異反向傳播到網絡頭部,反向傳播過程中使用隨機梯度下降算法調整網絡參數;重復樣本輸入的過程,直到網絡收斂。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611226528.6/1.html,轉載請聲明來源鉆瓜專利網。





