[發明專利]一種基于多模態注意力的圖像標題自動生成方法有效
| 申請號: | 201810602775.4 | 申請日: | 2018-06-05 |
| 公開(公告)號: | CN108829677B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 葛宏偉;閆澤杭 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06N3/04 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪;侯明遠 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 注意力 圖像 標題 自動 生成 方法 | ||
本發明屬于計算機視覺與自然語言處理的交叉技術領域,提出了一種基于多模態注意力的圖像標題自動生成方法,用以解決傳統的基于神經網絡的方法在預測單詞過程中視覺特征和語言特征的對齊問題以及忽略句子特征的問題,提高了模型的收斂速度與圖像標題的質量。本方法首先利用卷積神經網絡自動地對圖像區域進行特征提取;然后利用帶視覺注意力的LSTM實現了句子特征的提取;最后設計了一種帶多模態注意力(視覺注意力和隱變量注意力)的LSTM產生最終的圖像標題。實驗證明所提方法在MS COCO等基準數據集上取得了很好的結果。
技術領域
本發明屬于計算機視覺與自然語言處理的交叉技術領域,涉及一種基于多模態注意力的圖像標題自動生成方法。
背景技術
為圖像生成標題的本質是將圖像轉換為語言。設計一種高效的圖像標題自動生成算法可以使缺少視覺或視覺能力差的系統(人類或計算機)具備感知周圍環境的能力。近年來,有許多新穎的工作融合了計算機視覺和自然語言處理的先進技術取得了大有希望的成果。根據標題生成方式的不同,這些工作可以被分為三類:基于模板匹配的方法、基于遷移的方法和基于神經網絡的方法。
基于模板匹配的方法首先使用多個分類器分別將圖片所包含的物體、屬性和活動都識別出來,然后把這些已識別信息填入一個手工設計的固定句子模板以產生句子。該類方法雖然直觀且簡單,但是由于分類器與固定模板的限制而難以提取更復雜的圖像內容也不能靈活地產生結構更復雜的句子。基于遷移的方法使用圖像檢索技術在現有數據庫中搜索出與之相似的圖像,然后直接把相似圖像的標題作為所查詢圖片的結果。然而,因為搜索出的圖像與待查詢圖像僅僅是相似而不一定完全相同,所以遷移產生的句子可能無法準確地描述待查詢圖像的內容。
基于神經網絡的方法一般先利用卷積神經網絡(Convolutional NeuralNetwork,CNN)作為視覺模型來提取圖像特征進而利用循環神經網絡(Recurrent NeuralNetwork,RNN)作為語言模型產生有意義的通順語句。Vinyals等人借鑒了機器翻譯任務中的編碼器-解碼器結構提出了一種基于深度神經網絡的圖像標題生成器NIC(Vinyals O,Toshev A,Bengio S,et al.Show and tell:A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition.2015:3156-3164.)。NIC首先使用CNN作為編碼器提取出一個定長向量來表示圖像特征,進而使用長短期記憶模型(Long Short Term Memory,LSTM)作為解碼器產生圖像標題,是一種允許以端到端方式訓練的模型。為了達到動態關注顯著性圖像區域的目的,Xu等人選擇使用CNN的最后一個卷積層把整個圖像轉化為一組表示圖像各局部特征的向量。在局部特征上應用軟注意力機制或硬注意力機制可以進行顯著性區域的選擇,提高了模型的可解釋性和性能(Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation withVisual Attention[J].Computer Science,2015:2048-2057.)。為了獲得更精細的圖像區域特征,Li等人使用Faster R-CNN(Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advancesin neural information processing systems.2015:91-99.)提取圖像級特征和物體級特征并提出了全局-局部注意力機制(Li L,Tang S,Deng L,et al.Image Caption withGlobal-Local Attention[C]//AAAI.2017:4133-4139.)。全局-局部注意力機制可以動態地從圖像級特征和物體級特征中選擇顯著性特征以預測下一時刻的單詞。提取物體級特征不僅可以使用Faster R-CNN,Fu等人一方面利用選擇性搜索算法產生圖像中可能包含物體的候選框,然后將包含于各候選框的圖像區域輸入CNN以提取物體級特征;一方面通過文檔主題生成模型(Latent Dirichlet Allocation,LDA)訓練一個單隱藏層神經網絡預測圖像的場景信息,為標題生成提供更多的輔助信息(Fu K,Jin J,Cui R,et al.Aligning whereto see and what to tell:image captioning with region-based attention andscene-specific contexts[J].IEEE transactions on pattern analysis and machineintelligence,2017,39(12):2321-2334.)。此外,帶語義注意力機制的模型被提出以提高圖像標題的生成質量(You Q,Jin H,Wang Z,et al.Image Captioning with SemanticAttention[C]//Computer Vision and Pattern Recognition.IEEE,2016:4651-4659.)。語義注意力包括輸入注意力模塊和輸出注意力模塊兩部分。輸入注意力模塊會根據上一時刻預測的單詞選擇重要的視覺概念和屬性,而輸出注意力模塊則根據當前時刻隱藏層的狀態選擇重要的視覺概念和屬性。Gu等人在RNN的基礎上加入了時域CNN以提取單詞序列的特征(Gu J,Wang G,Cai J,et al.An empirical study of language cnn for imagecaptioning[C]//Proceedings of the International Conference on Computer Vision(ICCV).2017.)。其中,時域CNN用以獲取單詞序列的靜態表達,而RNN則用以獲取單詞序列的動態表達。這種結合RNN和時域CNN的方式有助于產生更通順的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810602775.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





