[發明專利]一種圖像描述生成方法在審
| 申請號: | 201811021369.5 | 申請日: | 2018-09-03 |
| 公開(公告)號: | CN109271628A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 張悅;王浩然 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28;G06N3/04 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 圖像 數據集中 特征向量 圖像描述 卷積神經網絡 記憶網絡 自然語言 清洗 詞表 圖像輸入步驟 分詞處理 生成圖像 提取特征 圖像調整 詞向量 向量化 構建 向量 捕獲 單詞 句子 標注 輸出 | ||
1.一種圖像描述生成方法,其特征在于,包括如下步驟:
S1:對MSCOCO數據集中的每一個圖像分別標注用于描述該圖像的語料;統計所有語料中各單詞的詞頻,將詞頻低于三的單詞定義為生僻詞,構建生僻詞表;
S2:對所有語料進行語料清洗,包括斷句,去掉標點符號、數字和特殊字符,根據生僻詞表去掉生僻詞,根據停用詞表去掉停用詞,以及詞干化;
對清洗后的所有語料進行分詞處理轉化為單詞,并通過Word2Vec編碼方法對單詞進行詞向量化;
S3:將MSCOCO數據集中的圖像調整為相同尺寸后輸入卷積神經網絡,輸出用于表達圖像的特征的特征向量;
其中,圖像的特征包括圖像的對象、顏色、邊緣信息和紋理信息;
所述卷積神經網絡包括通過快捷連接方式連接的殘差模塊:
y=F(x,{Wi})+Wsx
其中,x和y是層次的輸入和輸出向量,函數F表示要學習的殘差圖;
所述殘差模塊加入了線性投影W,使輸入x的維度與函數F的維度一致;
S4:利用MSCOCO數據集中的圖像對應的詞向量和特征向量訓練得到用于生成圖像描述的長短時記憶網絡模型;
其中,所述長短時記憶網絡模型的輸入為經過卷積神經網絡提取的特征向量,輸出為生成的圖像描述句子;
S5:將待描述圖像輸入步驟S3中所述卷積神經網絡提取特征向量;
S6:將步驟S5中提取的特征向量輸入所述長短時記憶網絡模型得到圖像描述句子。
2.根據權利要求1所述的圖像描述生成方法,其特征在于,步驟S1中的所述語料包括五句話,所述語料的標注規則包括:描述場景中所有重要的部分;不要用“There is/are”來開始句子;不要描述不重要的細節;不要描述將來或過去可能發生的事情;不要描述一個人可能會說什么;不要給場景中的人一個名字;描述場景的每一句話至少包含8個英文單詞。
3.根據權利要求1所述的圖像描述生成方法,其特征在于,所述長短時記憶網絡模型包括:
更新遺忘門輸出:
ft=σ(Wfxxt+Wfmmt-1)
其中,ft指t時刻遺忘門的輸出;xt指t時刻模型的輸入,t=0時輸入的是圖像的特征向量,從t=1開始到結束,輸入是上一個時間步的輸出;
更新輸入門的輸出:
it=σ(Wixxt+Wimmt-1)
其中,it指t時刻輸入門的輸出;
更新細胞狀態:
ct=ftΘct-1+itΘh(Wcxxt+Wcmmt-1)
其中,ct指t時刻細胞的狀態;h指LSTM網絡隱藏層輸出狀態;
更新輸出門輸出:
ot=σ(Woxxt+Wommt-1)
其中,ot指激活函數;
模型中的W指經過模型訓練得到的權重;
更新當前序列索引預測輸出:
mt=otΘct
pt-1=Softmax(mt)
其中,mt指LSTM模型記憶的信息;pt-1指輸出的詞向量的概率,取最大的作為輸出的單詞;
模型的目標函數為最大化目標描述的最大似然估計:
其中,θ*指模型的參數;I指JPG格式的圖像;S指圖像描述句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811021369.5/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





