[發明專利]基于層級神經網絡的圖像-句子描述生成系統及方法有效
| 申請號: | 201810267719.X | 申請日: | 2018-03-28 |
| 公開(公告)號: | CN108416065B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 張玥杰;程勇;周練;張濤 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/58 | 分類號: | G06F16/58;G06N3/08 |
| 代理公司: | 上海盈盛知識產權代理事務所(普通合伙) 31294 | 代理人: | 孫佳胤 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層級 神經網絡 圖像 句子 描述 生成 系統 方法 | ||
本發明提供基于層級神經網絡的圖像?句子描述生成系統及方法,本發明提供的基于層級神經網絡的圖像?句子描述生成系統包括:深度卷積網絡、第一深度循環神經網絡、第二深度循環神經網絡;所述深度卷積網絡獲取圖像,計算圖像特征向量在嵌入空間的嵌入向量;并輸出到第一深度循環神經網絡和第二深度循環神經網絡;所述第一深度循環神經網絡識別圖像中包含的物體,向第二深度循環神經網絡輸出物體序列;所述第二深度循環神經網絡根據所述嵌入向量和物體序列輸出描述所述圖像的句子。
技術領域
本發明屬于跨媒體生成技術領域,具體涉及基于層級神經網絡的圖像-句子描述生成系統及方法。
背景技術
在各種多模態信息處理任務中,圖像描述自動生成(Image Captioning)是一項非常重要的任務。其任務為給定一幅圖像,計算機自動分析圖像的視覺內容,并生成可以描述圖像主要內容的句子或者文本。圖像描述自動生成是一項非常具有挑戰性的任務,因為涉及到人工智能兩個非常重要的研究領域,計算機視覺和自然語言處理。從計算機視覺的角度看,圖像描述在原則上可以涉及到圖像中的任何視覺信息,比如圖像中所包含的物體以及屬性,或者描述圖像中的場景類型等等。此外,圖像描述還可能涉及到圖像中所沒有出現的信息或者無法從圖像中直接推斷出來的背景信息。所以,要生成好的圖像描述,需要依靠計算機視覺技術來提取出好的圖像特征表示。另一方面,僅僅依靠計算機視覺技術還不足以產生出好的圖像描述,因為視覺檢測的結果通常只是一些離散的,無結構的標簽,而這些標簽與描述圖像的句子之間仍然有著很大的區別。圖像描述應該是簡潔的,語法正確并且是可以理解的句子,而這需要使用自然語言處理技術來實現。
早期的研究工作通常會采用分步驟的處理方法,即先通過一些圖像識別算法得到圖像中所包含的物體以及屬性等語義信息,再通過人工設計的句子模板來生成圖像描述。然而這類方法需要經過復雜的人工設計,而且生成的句子缺乏自然性,影響了整體的效果。最近幾年,神經翻譯模型在機器翻譯領域取得了巨大的進展,受到其啟發,有不少工作嘗試將編碼-解碼模型應用到圖像描述自動生成任務當中。具體來說,該模型首先利用編碼算法將圖像內容用固定長度的特征向量來表示,之后再通過解碼算法將編碼向量轉化為描述圖像的句子。在現有的工作中,卷積神經網絡(CNN)常常被用做編碼器來提取圖像的特征向量,而循環神經網絡(RNN)則被用來生成圖像的描述句子信息。
基于神經網絡的方法則通過構建端到端的模型來對整個描述過程進行建模。這些方法通常都會采用編碼-解碼的框架,比較典型的工作有Kiros等人在2014年提出的多模態邏輯雙線性模型(Multimodal Log-Bilinear Models)。該模型利用卷積神經網絡來提取圖像的特征,之后構建了一個前饋神經語言模型來生成圖像的描述信息。Mao等人在2014年的工作也同樣使用神經網絡來生成圖像描述,不同的是,在其工作中使用了循環神經網絡作為句子生成模型。
盡管現有的工作在圖像自動描述任務上取得了不小的突破,但總體而言,基礎的CNN+RNN模型還是處在一個“粗糙”的起始階段,生成的句子與人類描述習慣不一致。
發明內容
本發明解決的問題是現有CNN+RNN模型在圖像-句子描述生成技術生成的句子與人類描述習慣不一致;為解決所述問題,本發明提供基于層級神經網絡的圖像-句子描述生成系統及方法。
本發明提供的基于層級神經網絡的圖像-句子描述生成系統,包括:深度卷積網絡、第一深度循環神經網絡、第二深度循環神經網絡;所述深度卷積網絡獲取圖像,計算圖像特征向量在嵌入空間的嵌入向量;并輸出到第一深度循環神經網絡和第二深度循環神經網絡;所述第一深度循環神經網絡識別圖像中包含的物體,向第二深度循環神經網絡輸出物體序列;所述第二深度循環神經網絡根據所述嵌入向量和物體序列輸出描述所述圖像的句子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810267719.X/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





