[發明專利]一種基于深度學習模型的圖像中文描述方法有效
| 申請號: | 201711385165.5 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN108009154B | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 王玉靜;呂世偉;謝金寶;殷楠楠;謝桂芬;李佰蔚 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F16/583;G06N3/04 |
| 代理公司: | 哈爾濱市偉晨專利代理事務所(普通合伙) 23209 | 代理人: | 曹徐婷 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 模型 圖像 中文 描述 方法 | ||
1.一種基于深度學習模型的圖像中文描述方法,其特征在于,包括以下步驟:
步驟a、準備ImageNet圖像數據集和AI Challenger圖像中文描述數據集;
步驟b、對ImageNet圖像數據集利用DCNN進行預訓練,得到DCNN預訓練模型;
步驟c、DCNN預訓練模型對AI Challenger圖像中文描述數據集進行圖像特征提取和圖像特征映射,傳輸至GRU門限遞歸網絡循環神經網絡;
步驟d、對AI Challenger圖像中文描述數據集中的AI Challenger圖像標注集進行詞編碼矩陣構建,包括文本預處理和分詞,建立詞典,在中文語句建立詞索引;
步驟e、利用NNLM提取詞嵌入特征,完成文本特征映射,傳輸至GRU門限遞歸網絡循環神經網絡;
步驟f、GRU門限遞歸網絡循環神經網絡作為語言生成模型,完成圖像描述模型構建;
步驟g、中文描述語句生成。
2.根據權利要求1所述一種基于深度學習模型的圖像中文描述方法,其特征在于,步驟b所述DCNN是深度卷積神經網絡,選取經典DCNN網絡模型AlexNet模型對ImageNet圖像數據集進行預訓練,得到網絡各層權重系數值即DCNN預訓練模型。
3.根據權利要求1所述一種基于深度學習模型的圖像中文描述方法,其特征在于,在步驟c中;
所述圖像特征提取是指DCNN預訓練模型對AI Challenger圖像中文描述數據集中的圖片集進行特征提取,取出第三個連接層的具有4096維的特征向量,所述特征向量是原始圖像經過5層卷積,3層全連接得到;
所述圖像特征映射是指由于較大的特征向量在網絡訓練時易造成過擬合現象,因此采用全連接的方法將所述特征向量從4096維映射到512維的特征空間,得到圖片特征映射矩陣。
4.根據權利要求1所述一種基于深度學習模型的圖像中文描述方法,其特征在于,步驟d所述詞編碼矩陣構建包括以下步驟:
步驟d1、對AI Challenger圖像中文描述數據集中的AI Challenger圖像標注集即caption數據集進行預處理;
步驟d2、采用jiba對中文caption進行分詞,篩選出頻率大于4的詞語組成詞頻詞典;
步驟d3、設置S及/S作為文本的起止標識符占一個詞語位,生成的詞典共包含8560個詞語;
步驟d4、對詞典中每個詞進行獨熱編碼,詞向量維度與詞典大小相等為8560維,詞向量中數值為1處代表該位置標號值為詞典中詞語的索引值。
5.根據權利要求1所述一種基于深度學習模型的圖像中文描述方法,其特征在于,步驟e所述文本特征映射方法如下:
固定好遍歷caption的滑動窗口大小為4,每次使用窗口中前三個詞去推斷下一個詞的概率;詞向量w的獨熱表示是一個維度為1*8560的向量,詞向量經過投影矩陣C8560*300,得到投影向量[w*c]1*300,NNLM的輸入層神經元的個數是三個投影向量的拼接維數,即900個,NNLM的隱層神經元個數為512,隱層激活函數為tanh函數,NNLM的輸出層神經元個數為8560,并加入softmax進行歸一化,得到詞典中每一個詞的概率,選取其中概率最高的作為預測詞的概率,在caption數據集上遍歷滑動窗口并得到隱藏層與輸出層之間的權重矩陣就是最終得到的詞嵌入矩陣,即文本特征映射矩陣W512*8560,即將詞典中每一個詞都轉化為一個512維的詞向量;
NNLM模型的優化目標是在訓練集上使得前t-1時刻詞已知的情況下得出的t時刻詞語概率值的似然函數最大化:
其中wt是當前預測的詞語,wt-n+1…wt-1是它的上文,優化的目標是當前詞在已知上文語義情況下的最大似然;
模型的訓練是用SGD算法來更新參數:
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711385165.5/1.html,轉載請聲明來源鉆瓜專利網。





