[發明專利]一種基于深度學習的圖像語義生成方法在審
| 申請號: | 201611035273.5 | 申請日: | 2016-11-17 |
| 公開(公告)號: | CN108073941A | 公開(公告)日: | 2018-05-25 |
| 發明(設計)人: | 張威;周治平 | 申請(專利權)人: | 江南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 214122 江蘇省無錫市濱湖*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖像語義 卷積神經網絡 時間記憶 人工標注 長段 損失函數 神經網絡技術 網絡 語義 反向傳播 模型結構 圖像輸入 圖像特征 圖像整體 網絡生成 應用卷積 構建 學習 優化 | ||
1.一種基于深度學習的圖像語義生成方法;其特征在于,所述的方法基于深度學習的圖像語義生成主要包含如下步驟:
步驟1:通過圖像整體語義生成要求,構建一種結合卷積神經網絡和長段時間記憶網絡的模型結構;
步驟2:為解決“過擬合”問題,使用其他數據預訓練卷積神經網絡,得到預訓練好的卷積神經網絡,通過訓練數據對所述預訓練好卷積神經網絡進行訓練得到卷積神經網絡模型;
步驟3:通過卷積神經網絡提取的圖像高層特征和正確的語義信息對長短時間記憶網絡進行訓練得到長短時間記憶網絡模型,然后通過訓練數據對卷積神經網絡和長短時間記憶網絡進行聯合訓練得到最終的圖像語義產生模型;
步驟4:將圖像輸入到得到的模型中,生成圖像內容的語義描述。
2.根據權利要求1所述的一種基于深度學習的圖像語義生成方法,其特征在于:在步驟1中所使用結合卷積神經網絡和長段時間記憶網絡的模型結構,為了能夠完整提取圖像內容語義,設計一種結合卷積神經網絡和長短時間記憶網絡的圖像語義生成模型;使用卷積神經網絡提取圖像的高層語義特征,可以有效避免“語義鴻溝”問題,卷積神經網絡提取的特征只在第一次輸入到長短時間記憶網絡中,有:
x
其中CNN()表示提取卷積神經網絡特征;
長短時間記憶網絡根據提取的圖像特征和正確的語義信息進行預測圖像對應特征生成的對應單詞,有:
p
其中,LSTM()表示對輸入x
整體網絡根據最小化損失函數來確定模型最后的語義輸出,損失函數定義如下:
L
那么,最小化損失函數公式為:
θ是模型參數,I表示圖像,S表示圖像對應的語義描述。
3.根據權利要求1所述的一種基于深度學習的圖像語義生成方法,其特征在于:在步驟2中使用預訓練好的卷積神經網絡替代原始卷積神經網絡;訓練數據過少會導致深度神經網絡訓練過程中出現的“過擬合”,使用預訓練的卷及神經網絡避免過擬合問題;在將卷積神經網絡應用于圖像語義生成之前,使用其他樣本數目較多的數據庫對卷積神經網絡進行訓練,訓練完成后再使用圖像語義生成所用圖像庫對預訓練好的卷積神經網絡進行訓練,得到卷積神經網絡模型。
4.根據權利要求1所述的一種基于深度學習的圖像語義生成方法,其特征在于:步驟2,步驟3中聯合構成的先單獨訓練再聯合訓練模型的方法;首先對卷積神經網絡進行訓練,得到訓練好的卷積神經網絡模型,然后使用該模型提取圖像的高層特征與訓練使用語義信息對長短時間記憶網絡進行訓練,得到訓練好的長短時間記憶模型,在長短時間記憶網絡訓練過程中,卷積神經網絡參數保持不變;最后對卷積神經網絡和長短時間記憶網絡聯合訓練,訓練過程中,卷積神經網絡參數和長短時間記憶網絡參數均會進行優化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江南大學,未經江南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611035273.5/1.html,轉載請聲明來源鉆瓜專利網。





