[發明專利]基于卷積神經網絡的圖像描述方法、計算機可讀存儲介質、電子設備有效
| 申請號: | 201910393359.2 | 申請日: | 2019-05-13 |
| 公開(公告)號: | CN110288665B | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 鄭向濤;盧孝強;吳思遠 | 申請(專利權)人: | 中國科學院西安光學精密機械研究所 |
| 主分類號: | G06T9/00 | 分類號: | G06T9/00;G06N3/04;G06N3/08 |
| 代理公司: | 西安智邦專利商標代理有限公司 61211 | 代理人: | 鄭麗紅 |
| 地址: | 710119 陜西省西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 圖像 描述 方法 計算機 可讀 存儲 介質 電子設備 | ||
本發明提供一種基于卷積神經網絡的圖像描述方法、計算機可讀存儲介質、電子設備,解決現有遞歸神經網絡方法不能并行處理序列信號以及運算耗時的問題。該方法包括以下步驟:1)將卷積神經網絡預訓練好;2)提取圖像的全局特征和局部特征,將圖像的全局特征和局部特征投影到多模態映射空間中;3)對步驟2)中多模態映射空間下的圖像表達進行卷積編碼;4)單詞特征表達;5)對步驟4)的描述語句進行卷積編碼,6)計算注意力,得到輸入圖像對應生成單詞的概率;7)構建輸入輸出之間的目標損失函數,利用損失函數進行神經網絡訓練,得到神經網絡的位置參數;8)將測試圖像輸入訓練的神經網絡系統,得到測試圖片對應的描述性自然語句。
技術領域
本發明涉及圖像與文本多模態融合技術,具體涉及一種基于卷積神經網絡的圖像描述方法、計算機可讀存儲介質、電子設備,可用于兒童早教、人機交互、視覺障礙人群的輔助視覺等。
背景技術
隨著科技的發展,人工智能已逐步成為推動人類進入智能時代的決定性力量。人工智能研究如何讓機器模擬人的思維過程和智能行為,讓計算機從自然圖像中自動生成一段描述性文字,用一句話描述圖像的內容。近幾年,深度學習在計算機視覺、自然語言處理以及語音信息處理等領域取得巨大突破,在圖像描述領域也獲得廣泛關注。
目前,圖像描述的方法主要有兩大類:
一是基于檢索的圖像描述方法,該方法在深度學習廣泛應用之前較為流行。M.Hodosh等人在文獻“M.Hodosh,P.Young,and J.Hockenmaier.Framing imagedescription as a ranking task:Data,models and evaluation metrics.Journal ofArtificial Intelligence Research,2013,47:853–899”中提出了一種基于檢索的圖像描述方法,即給定一張待描述的圖像,在圖像-文本數據庫中檢索出相似的圖像,然后根據對應的描述語句生成新的語句來描述該圖像。該方法存在的不足之處是,產生的語句缺乏變化,而且描述性語句和圖像之間存在較大的偏差,描述精度不理想。
二是基于多模態神經網絡的圖像描述方法,該方法運用計算機視覺領域和自然語言處理領域取得極大成功的卷積神經網絡和遞歸神經網絡。J.Mao等人在文獻“J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang,and A.Yuille,“Deep captioning with multimodalrecurrent neural networks(m-rnn).in International Conference on LearningRepresentations(ICLR),2015.”中提出了一種基于多模態遞歸神經網絡的方法,利用卷積神經網絡提取圖像全局特征,利用遞歸神經網絡對圖像特征和自然語句特征進行融合,最后實現圖像描述。然而,該方法中多模態融合模塊和語言模塊使用的是遞歸神經網絡(Recurrent Neural Network,RNN),與卷積神經網絡(Convolutional Neural Network,CNN)相比,RNN有許多不足之處。首先,RNN對序列處理是串行處理,即逐詞順序處理,這大大增加了運算復雜度(或時間),這和CNN并行計算隱層狀態相反;其次,RNN在處理有單詞構成的自然語句中,假設句子長度為T,那么RNN對第一個單詞處理次數為T,而對最后一個單詞的處理為1次,因此,RNN對序列中的每一個元素處理是不平衡的,而CNN對每一個元素的處理卻是平等的。此外,很多研究成果表明,注意力機制對于圖像描述任務具有重要的作用,那么當RNN換為CNN時,如何實現注意力機制也需要進一步研究。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院西安光學精密機械研究所,未經中國科學院西安光學精密機械研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910393359.2/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





