[發明專利]一種圖像描述生成方法在審
| 申請號: | 201811021369.5 | 申請日: | 2018-09-03 |
| 公開(公告)號: | CN109271628A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 張悅;王浩然 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28;G06N3/04 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 圖像 數據集中 特征向量 圖像描述 卷積神經網絡 記憶網絡 自然語言 清洗 詞表 圖像輸入步驟 分詞處理 生成圖像 提取特征 圖像調整 詞向量 向量化 構建 向量 捕獲 單詞 句子 標注 輸出 | ||
本發明提供一種圖像描述生成方法,包括如下步驟:S1:對MSCOCO數據集中的每一個圖像分別標注用于描述該圖像的語料;構建生僻詞表;S2:對所有語料進行語料清洗;對清洗后的所有語料進行分詞處理并對單詞進行詞向量化;S3:將MSCOCO數據集中的圖像調整為相同尺寸后輸入卷積神經網絡,輸出用于表達圖像的特征的特征向量;S4:利用MSCOCO數據集中的圖像對應的詞向量和特征向量訓練得到用于生成圖像描述的長短時記憶網絡模型;S5:將待描述圖像輸入步驟S3中所述卷積神經網絡提取特征向量;S6:將步驟S5中提取的特征向量輸入所述長短時記憶網絡模型得到圖像描述句子。本發明解決了現有技術不能用自然語言捕獲和表達圖像中各對象之間關系的問題。
技術領域
本發明涉及圖像話題生成技術領域,具體而言,尤其涉及一種圖像描述生成方法。
背景技術
近年來,隨著人工智能領域的不斷發展,計算機視覺這門學科的發展已經相當的成熟,各種圖像相關的任務已經被解決并應用到實際生活中,而近幾年隨著深度學習的興起,以機器翻譯為代表的自然語言處理領域正在興起,這兩種學科的交叉運用使得圖像描述生成任務受到很多關注。自動生成圖像的描述,又稱為圖像的字幕生成問題,是場景理解的核心問題,該問題具有重要的實際應用,例如:幫助視障人士“看見”,幫助圖像搜索,看圖說話等等,都有著很好的應用前景。生成準確的圖像自然語言描述是非常有意義的,它相當于將計算機視覺和自然語言處理結合起來,使模型擁有了模仿人類將大量顯著的視覺信息壓縮成描述性語言的卓越能力。同時,該問題是圖像理解領域的一大挑戰,是計算機視覺中的核心問題,它不僅需要模型足夠強大,能夠確定圖像中的對象,而且模型還必須能夠用自然語言捕獲和表達對象間的關系。因此,圖像描述問題一直被視為一個難題,正處于研究的初級階段,有許多問題亟待解決。
發明內容
根據上述提出現有技術不能夠用自然語言捕獲和表達圖像中各對象之間關系的技術問題,而提供一種圖像描述生成方法。本發明主要利用提出的優化的卷積神經網絡提取圖像特征信息,并直接輸入長短時記憶網絡模型,從而起到簡化了圖像向量的生成以及模型的輸入,不需動態再做調整的作用。
本發明采用的技術手段如下:
一種圖像描述生成方法,包括如下步驟:
S1:對MSCOCO數據集中的每一個圖像分別標注用于描述該圖像的語料;統計所有語料中各單詞的詞頻,將詞頻低于三的單詞定義為生僻詞,構建生僻詞表;
S2:對所有語料進行語料清洗,包括斷句,去掉標點符號、數字和特殊字符,根據生僻詞表去掉生僻詞,根據停用詞表去掉停用詞,以及詞干化;
對清洗后的所有語料進行分詞處理轉化為單詞,并通過Word2Vec編碼方法對單詞進行詞向量化;
S3:將MSCOCO數據集中的圖像調整為相同尺寸后輸入卷積神經網絡,輸出用于表達圖像的特征的特征向量;
其中,圖像的特征包括圖像的對象、顏色、邊緣信息和紋理信息;
所述卷積神經網絡包括通過快捷連接方式連接的殘差模塊:
y=F(x,{Wi})+Wsx
其中,x和y是層次的輸入和輸出向量,函數F表示要學習的殘差圖;
所述殘差模塊加入了線性投影W,使輸入x的維度與函數F的維度一致;
S4:利用MSCOCO數據集中的圖像對應的詞向量和特征向量訓練得到用于生成圖像描述的長短時記憶網絡模型;
其中,所述長短時記憶網絡模型的輸入為經過卷積神經網絡提取的特征向量,輸出為生成的圖像描述句子;
S5:將待描述圖像輸入步驟S3中所述卷積神經網絡提取特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811021369.5/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





