[發明專利]基于預訓練及雙層注意力的圖像描述生成系統的構建方法在審
| 申請號: | 202110394217.5 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113095405A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 杜權 | 申請(專利權)人: | 沈陽雅譯網絡技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 沈陽新科知識產權代理事務所(特殊普通合伙) 21117 | 代理人: | 李曉光 |
| 地址: | 110004 遼寧省沈陽市*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 訓練 雙層 注意力 圖像 描述 生成 系統 構建 方法 | ||
本發明公開一種基于預訓練及雙層注意力的圖像描述生成系統的構建方法,步驟為:訓練開源的圖像多標簽分類模型;對MS COCO圖像描述數據集進行處理獲得訓練數據;使用圖像多標簽分類模型提取圖像特征,得到整張圖像的對象信息;將整張圖像的對象信息與圖像特征合并成編碼器的結果;使用雙層注意力機制處理編碼器和解碼器傳來的信息;整個解碼器最終輸出圖像的描述性語句;將所有模型封裝,并部署在服務器端,完成整個系統的搭建。本發明將預訓練的圖像多標簽分類模型納入編碼器中,并創新性地使用雙層注意力機制處理編碼器和前層解碼器傳遞來的信息,提升了圖像描述生成模型識別對象的準確率,相較于普通的圖像描述生成模型獲得了更好的性能。
技術領域
本發明涉及一種圖像描述生成技術,具體為基于預訓練及雙層注意力的圖像描述生成系統的構建方法。
背景技術
作為計算機視覺領域的終極任務之一,圖像描述生成任務難度極大,其目標是跟據給定圖像,生成一段文字來描述這幅圖像。既要求描述語言的語法、語義準確,也需要其語言風格貼近實際生活。這是一個計算機視覺與自然語言處理相結合的任務。正因為圖像描述具有像人一樣能夠將冗雜的圖像信息壓縮成精煉文字的能力,它在生活中也有著較為廣泛的應用——幫助盲人“看見”世界、實現圖像和視頻到文字語音的轉換等。
讓機器分析圖像,并用自然語言概述圖像也是一件極為困難的事情。因為機器需要做的不僅僅是識別出圖像中存在的物體,還需要識別出行為、方位等信息,并且需要將上述分析到的信息用符合語法規則和正常邏輯的語言表達出來。除此之外,優秀的描述還需要機器具有歸類的能力,即把一些相似的物體劃為一個整體。以往的圖像描述生成系統往往只基于編碼器-解碼器構架,卷積神經網絡作為編碼器提取圖像特征,循環神經網絡作為解碼器生成文字描述。但單靠圖像描述生成模型識別不準確,因為如此簡單的結構無法充分反映圖像的表層信息如對象、方位等信息和隱層信息如動作、情緒等信息。
發明內容
針對現有技術中圖像描述生成系統的識別準確率低等不足,本發明要解決的技術問題是提供一種可提升圖像描述生成模型識別對象的準確率的基于預訓練及雙層注意力的圖像描述生成系統的構建方法。
為解決上述技術問題,本發明采用的技術方案是:
本發明提供一種基于預訓練及雙層注意力的圖像描述生成系統的構建方法,包括以下步驟:
1)訓練開源的圖像多標簽分類模型;
2)使用MS COCO圖像描述數據集并對數據進行處理;
3)使用圖像多標簽分類模型提取圖像特征,得到整張圖像的對象信息;
4)將整張圖像的對象信息與圖像特征合并成編碼器的結果;
5)使用雙層注意力機制處理編碼器和解碼器傳來的信息;
6)整個解碼器最終輸出圖像的描述性語句;
7)將所有模型封裝,并部署在服務器端,完成整個系統的搭建。
步驟1)中,選取目前性能優異而且開源的圖像多標簽模型,使用MS COCO數據集對其進行訓練。
步驟2)中,對獲取到的MS COCO數據集進行清洗,包括去除數據集中分辨率較低的圖像,去除圖像描述中包含亂碼的數據對,使用清洗后的數據訓練圖像描述生成模型。
步驟3)中,首先使用圖像多標簽分類模型提取整張圖像的對象,然后將對象編碼成詞嵌入獲取其連續性表示,具體步驟為:
301)使用圖像多標簽分類模型提取出圖像中包含的對象;
302)如果圖像多標簽分類模型輸出的對象的數量少于M個,則使用專用符號填充,使對象數量達到M個;303)如果圖像多標簽分類模型輸出的對象的數量等于M個,則直接輸出這M個對象;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽雅譯網絡技術有限公司,未經沈陽雅譯網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110394217.5/2.html,轉載請聲明來源鉆瓜專利網。





