[發明專利]一種基于編碼器-解碼器框架的圖像描述方法在審
| 申請號: | 202011218343.7 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112200268A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 廖祥文;丘永旺;陳志豪;陳俊杰;吳君毅 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/08;G06N3/04 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 錢莉;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 編碼器 解碼器 框架 圖像 描述 方法 | ||
本發明涉及一種基于編碼器?解碼器框架的圖像描述方法,包括步驟采用編碼器組件,對文本特征和圖像特征進行提取;采用解碼器組件,學習圖像特征和文本特征,并生成圖像描述語句。本發明所生成的圖像描述的句子能夠突出圖像的關鍵表達。
技術領域
本發明涉及計算機視覺與自然語言處理技術領域,特別是一種基于編碼器-解碼器框架的圖像描述方法。
背景技術
采用自然語言對圖像中的內容進行描述,被稱作圖像語義描述。語義描述不僅需要識別圖像的對象和屬性,還需要理解它們之間的關系,生成句法和語義正確的語句。近年來科學技術迅猛發展,人們的生活中充斥著各種類型的圖像。人類可以清楚地理解它們,然而對于機器很難完全描述圖像,圖像語義描述就是要解決機器表達圖像的問題。采用計算機自動生成的圖像內容的描述性文本不僅具有挑戰性,而且也是非常有意義的,伴隨著網絡空間多媒體技術的普遍推廣,網絡上的視頻和圖像數據劇烈膨脹,大量的信息和豐富的多媒體數據已經成為重要的信息來源,信息時代已經來臨。然而,對于那些視覺障礙的人來說,他們不能接收這樣的豐富的多媒體信息。利用計算機來自動描述圖像的內容可以彌補視覺障礙的人在獲取豐富的多媒體信息方面的缺陷,從而讓他們更好地感知網絡乃至現實世界圖像信息。除此之外,圖像語義描述還應用于嬰幼兒教育,圖像的智能標簽以及人機交互領域方面。
最早應用的圖像處理方法是借助傳統的機器學習加以實現,例如通過圖像處理算子對圖像進行特征提取,再借助支持向量機(SVM)劃分圖像類型,從而得到圖像目標。據此得到的目標與屬性即為生成語句的基礎,而實際中使用本方法時取得的效果未達到預期。深入探索本領域研究歷程,劃分圖像語義描述為三種類型,分別為基于檢索的圖像描述、基于模板的圖像描述及基于深度學習的圖像描述。
基于模板的圖像描述思想是在一系列指定的語法模板中保留一些空缺,然后根據提取的圖像特征獲取目標、動作和屬性,并將其添補到空缺中以獲取圖像的描述。這種方法保證了語義和句法正確性,但是完全確定的模板不能產生多樣化的輸出。基于檢索的圖像描述是指將大量的圖像描述儲存在一個集合中,然后通過比較待描述圖像中的圖像描述和訓練集中圖像描述之間的相似性獲得一組待選擇的語句,最后選取該圖像的描述。這種方法保證了句法的正確性,但不能保證語義的正確性或準確描述新圖像。目前,使用的大多數方法都是基于深度學習的圖像描述,該方法的一般流程是對圖像信息編碼,并將其輸入發送到語言模型,然后使用語言模型生成全新的描述。并且在新圖像生成描述的語法正確性、語義準確性和泛化能力方面取得了良好的效果。近年來,伴隨著深度學習的快速發展,卷積神經網絡(CNN)已發展成為計算機領域提取圖像特征的主要方式。由于卷積神經網絡具有強大的圖像特征提取能力,使用深度卷積神經網絡作為圖像特征編碼器已經成為圖像語義描述的主流方法。
計算機對圖像內容得到充分理解并應用在某些領域對人類的生活來說至關重要,雖然越來越多的圖像描述生成方法已經達到了高準確率,但是仍然存在不足的地方:圖像的屬性之間的聯系太少,導致生成圖像描述的句子沒有突出圖像的更具體的關鍵表達。
發明內容
有鑒于此,本發明的目的是提出一種基于編碼器-解碼器框架的圖像描述方法,所生成的圖像描述的句子能夠突出圖像的關鍵表達。
本發明采用以下方案實現:一種基于編碼器-解碼器框架的圖像描述方法,具體包括以下步驟:
采用編碼器組件,對文本特征和圖像特征進行提取;
采用解碼器組件,學習圖像特征和文本特征,并生成圖像描述語句。
進一步地,所述采用編碼器組件,對文本特征和圖像特征進行提取具體為:檢測輸入圖像中的對象坐標,對圖像中的對象進行特征提取,生成圖像特征向量;對輸入的文本進行處理,形成句子中各個詞的初步特征向量表示,得到文本特征向量。
進一步地,所述檢測輸入圖像中的對象坐標具體為:采用Faster-RCNN網絡,檢測圖像中每個對象的坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011218343.7/2.html,轉載請聲明來源鉆瓜專利網。





