[發明專利]一種基于生成對抗網絡的圖像描述文本生成方法有效
| 申請號: | 202110206288.8 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112818159B | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 陸佳妮;程帆 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F40/126;G06F40/194;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 圖像 描述 文本 方法 | ||
本發明涉及一種基于生成對抗網絡的圖像描述文本生成方法,包括以下步驟:1)構建用以實現對圖像進行特征提取的編碼器;2)對文本進行詞嵌入,并構建用以生成圖像描述文本的解碼器;3)根據極大似然估計對由編碼器和解碼器共同構成的生成器進行預訓練;4)構建基于卷積神經網絡的判別器并進行訓練;5)共同訓練生成器與判別器;6)將待生成描述文本的測試圖像數據輸入訓練好的生成器中,輸出生成的描述文本。與現有技術相比,本發明具有提高生成的文本的客觀評測得分、可解釋性好和多樣性等優點。
技術領域
本發明涉及人工智能方向中的計算機視覺和自然語言處理領域,尤其是涉及一種基于生成對抗網絡的圖像描述文本生成方法。
背景技術
隨著人工智能技術的成熟,計算機視覺、自然語言處理等領域都有了飛速發展,圖像描述任務要求機器可以自動為圖像生成描述性的語句,因此圖像描述模型需要同時具備圖像理解能力和自然語言理解能力,這依賴于模型對圖像表示和文本表示的獲取與處理。
現有主流的圖像描述方法包括以下步驟:
1)利用編碼器提取出圖像特征;
2)利用解碼器和注意力機制,解碼輸入的特征,生成文本;
3)用REINFORCE這一強化學習算法進一步優化生成器。
上述圖像描述生成方法框架較為簡單,在步驟1)中使用的編碼器通常只是一個簡單的卷積神經網絡,輸入圖像后,輸出一個完整的圖像特征,在這個完整特征上使用注意力機制,相當于將圖像按大小相同的網格進行了劃分,而一個物體被網格切分后,可能是不完整的,由此生成的描述文本是不精確的;在步驟2)中的注意力機制只用于圖像特征上,沒有利用好文本自身的特征,在自然語言中,句子中通常有一些連接詞,它們的生成與圖像本身無關;在步驟3)中只用到了強化學習算法來優化生成器,而生成對抗網絡可以進一步優化生成器。圖像描述生成方法單純依靠編碼器-解碼器的架構和全局的注意力機制,在生成文本描述時,仍有許多不足:用詞不夠準確,在客觀評價指標上的評分較低,提升不明顯。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于生成對抗網絡的圖像描述文本生成方法。
本發明的目的可以通過以下技術方案來實現:
一種基于生成對抗網絡的圖像描述文本生成方法,包括以下步驟:
1)構建用以實現對圖像進行特征提取的編碼器;
2)對文本進行詞嵌入,并構建用以生成圖像描述文本的解碼器;
3)根據極大似然估計對由編碼器和解碼器共同構成的生成器進行預訓練;
4)構建基于卷積神經網絡的判別器并進行訓練;
5)共同訓練生成器與判別器;
6)將待生成描述文本的測試圖像數據輸入訓練好的生成器中,輸出生成的描述文本。
所述的步驟1)中,所述的編碼器為基于ResNet-101的Faster R-CNN模型,對于給定的一張圖像,編碼器從該圖像中檢測到的n個物體,將圖像編碼為n個目標區域的特征集合V={v1,…vi…,vn},其中,vi為目標選區i經過平均池化層后的特征向量。
所述的步驟2)中,采用GloVe模型對文本進行詞嵌入,得到詞嵌入后的文本向量,即詞嵌入表示。
所述的步驟2)中,解碼器由一個雙層的長短期記憶神經網絡模型和兩個注意力模塊組成,具體包括作為第一層的注意力生成LSTM層、作為第二層的語言生成LSTM層以及設置在注意力生成LSTM層與語言生成LSTM層之間的兩個用以生成視覺哨兵向量的自適應注意力模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110206288.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:吊具水平限位機構
- 下一篇:一種管道支吊架檢測裝置





