[發明專利]基于迭代學習的圖像描述重生成系統及方法有效
| 申請號: | 201811176057.1 | 申請日: | 2018-10-10 |
| 公開(公告)號: | CN109447242B | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 張玥杰;周練;田勇;張濤 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06T11/00 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;陸尤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 學習 圖像 描述 生成 系統 方法 | ||
本發明為基于迭代學習的圖像描述重生成系統及方法,包括:深度卷積網絡、第一輪循環神經網絡、知識抽取模塊以及第二輪循環神經網絡。深度卷積網絡對圖像進行細粒度的編碼。第一輪循環神經網絡為圖像生成初步的句子描述以及視覺注意力圖序列。知識抽取模塊根據注意力圖,利用顯著性區域檢測算法來生成顯著性區域掩碼。此外,知識抽取模塊從初步生成的句子描述中提取名詞序列作為圖像的主題詞。第二輪循環神經網絡通過三種機制將顯著性區域掩碼和主題詞融入第二輪訓練,即基于顯著性區域掩碼的全局圖像視覺表示精煉,基于主題詞的多模態圖像表示優化以及基于主題詞的多模態注意力機制。基于上述機制,第二輪循環神經網絡可生成精煉的圖像描述。
技術領域
本發明屬于跨媒體生成技術領域,具體涉及基于迭代學習的圖像描述重生成系統及方法。
背景技術
圖像描述生成(Image Captioning)是一項非常重要的視覺任務,即為圖像生成一句描述其視覺內容的自然語言。圖像描述生成任務可以實現從視覺到文本的映射,具有非常廣闊的應用前景,例如,跨媒體檢索、盲人輔助等。圖像描述生成任務非常具有挑戰性,模型不僅需要準確地識別出圖像中的顯著性對象、對象的屬性以及對象之間的交互關系,還要將這些識別出來的信息進行整合,最終生成一句有意義的自然語言描述。目前,實現圖像描述生成的方法可以大致分為三類,即基于檢索的方法、基于模板的方法以及基于序列學習的方法。前兩種方法有比較明顯的缺點,效果上不如基于序列學習的方法。所以,基于序列學習的方法是目前用于實現圖像描述生成的主流方法?;谛蛄袑W習的方法是在深度神經網絡快速發展的背景下提出的。具體來說,基于序列學習的方法從神經機器翻譯領域的編碼器-解碼器框架獲得啟發,使用深度卷積網絡CNN(Convolutional Neural Network)作為圖像編碼器,將圖像編碼成高維向量表示,然后利用循環神經網絡RNN(RecurrentNeural Network)作為解碼器,對圖像的高維向量表示進行解碼,最終生成圖像的視覺描述。
目前,已經有實驗證明視覺和語義的顯著性廣泛存在于圖像描述任務中。但是,大部分基于單輪學習的圖像描述生成模型無法利用視覺和語義上的顯著性信息來增強模型的學習。所以,基于單輪學習的圖像描述生成模型面臨著兩個問題。第一,粗糙的全局圖像特征表示。許多模型利用深度卷積網絡卷積層輸出的特征圖來編碼圖像,也就是將圖像劃分成小區域,每個區域表示成一個特征向量。在第一輪學習的初始時刻,由于無法判斷哪些區域是顯著區域,所以模型只能將這些區域特征向量進行簡單的平均來得到一個圖像的全局表示,然后基于該表示進行解碼。因為人在描述圖像的視覺內容時往往只描述圖像的顯著性區域,所以通過簡單地將各個區域的特征向量進行平均得到的圖像表示無法很好地編碼圖像的顯著性視覺信息,從而損害最終生成的圖像描述的質量。第二,語義信息的缺失。每個圖像的視覺內容都對應一定的主題(例如“汽車”,“鮮花”等),所以主題詞將有助于模型更好地理解圖像的語義內容,從而提高所生成圖像描述的質量。但是,對于只進行一輪學習的模型來說,模型無法獲取測試集圖像的主題詞信息。為了解決以上問題,前期已經有一些工作提出利用人眼焦點數據集來學習一個圖像顯著性區域預測器,用于生成圖像的顯著性區域掩碼,并利用顯著性區域掩碼來精煉圖像的視覺表示。此外,還有工作利用檢索、多實例學習、多標簽分類等技術來學習圖像語義預測器,從而為圖像描述生成模型提供更多關于圖像的顯著性語義信息。但是,當我們的目標只是為圖像生成描述時,上述方法引入了額外的負擔。更好的方法應該是讓圖像描述生成模型自己去識別圖像的顯著性區域以及獲取與顯著性區域相對應的顯著性語義信息。隨著深度神經網絡的發展,當前的圖像描述生成模型已經可以學習到足夠準確的圖像視覺和語義顯著性信息。但是由于單輪學習以及缺乏顯著性信息提取和融合的機制,當前的模型無法很好地利用學習到的有益信息?;谏鲜隹紤],本發明采用迭代學習的方式,通過視覺顯著性檢測以及主題詞機制從第一輪模型中提取有益的顯著性信息,并通過相應的顯著性融合機制將顯著性信息融入到第二輪的學習中,從而讓圖像描述生成模型能夠更加充分地利用自己學習到的知識來提高模型的性能。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811176057.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





