[發明專利]基于視覺與主題協同注意力的連貫性故事生成系統及方法在審
| 申請號: | 202110931513.4 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113779938A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 王瀚漓;谷金晶 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/216;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視覺 主題 協同 注意力 連貫性 故事 生成 系統 方法 | ||
本發明涉及一種基于視覺與主題協同注意力的連貫性故事生成系統及方法,該方法包括以下步驟:1)提取相冊特征向量以及時間動態信息;2)獲取每條描述語句的主題概率分布并預測相冊中每幅圖像中的主題分布信息;3)基于視覺與主題協同注意力生成主題連貫性的圖像描述語句;4)通過考慮n?gram多樣性的短語束搜索算法對圖像描述語句進行短語束搜索,提高視覺故事敘述表達的準確度和多樣性。與現有技術相比,本發明具有增強描述語句的主題連貫性、提高故事本文的表達多樣性、優化視覺故事的生成質量等優點。
技術領域
本發明涉及計算機視覺故事描述領域,尤其是涉及一種基于視覺與主題協同注意力的連貫性故事生成系統及方法。
背景技術
目前,基于深度學習的視覺描述方法雖取得了一系列進展,但圖像相冊故事生成任務對描述內容的主題連貫性和描述語句的表達多樣性提出了更高的要求。
現階段基于深度學習的圖像相冊故事生成方法研究可以分為以下兩個類別:
(1)基于強化學習的圖像故事生成模型:在模型的訓練階段引入強化學習,以提高生成故事的評價指標值;
(2)基于視覺特征理解的圖像相冊故事生成模型:通過對圖像相冊中蘊含的視覺信息進行細粒度的理解,來提高生成的敘述故事的表達多樣性。
但是,以上這兩類方法生成的故事在主題連貫性和表達多樣性兩個方面仍有待進一步提高。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于視覺與主題協同注意力的連貫性故事生成系統及方法。
本發明的目的可以通過以下技術方案來實現:
一種基于視覺與主題協同注意力的連貫性故事生成系統,該系統包括:
圖像相冊特征編碼模塊:用以提取相冊特征向量以及時間動態信息;
主題感知模塊:由故事描述文本主題挖掘模型和主題分布預測模型構成,用以獲取每條描述語句的主題概率分布并預測相冊中每幅圖像中的主題分布信息;
視覺與主題協同注意力模塊:分別與圖像相冊特征編碼模塊和主題感知模塊連接,用以基于視覺與主題協同注意力生成主題連貫性的圖像描述語句。
所述的圖像相冊特征編碼模塊的數據處理步驟為:
11)圖像特征提取:采用ResNet-152模型提取相冊j中作為圖像相冊視覺編碼信息的每幅圖像的圖像特征后通過平均池化層獲得相冊特征向量;
12)相冊特征編碼:將提取出的相冊特征向量輸入帶有殘差模塊的雙向門控循環單元GRU中,獲取相冊的時間動態信息。
所述的主題感知模塊的數據處理步驟為:
21)故事描述文本主題挖掘:采用LDA主題模型從視覺描述文本中提取每條描述語句的主題概率分布其中,主題詞涉及與主題相近的目標主體和動作;
22)主題分布預測:將相冊中每幅圖像的圖像特征輸入長短時序列神經網絡LSTM中進行預測,得到相冊中每幅圖像中的主題預測分布
所述的視覺與主題協同注意力模塊包括基于GRU的自上而下視覺注意力模型、基于GRU的自上而下主題注意力模型以及分別與視覺與主題協同注意力模塊包括基于GRU的自上而下視覺注意力模型和基于GRU的自上而下主題注意力模型連接的連貫性語句生成模型組成。
所述的基于GRU的自上而下視覺注意力模型以上一個時間步的隱狀態、圖像相冊視覺編碼信息以及在當前時間步前已經生成的單詞Weχt-1作為輸入,以視覺權重分布和當前時間步的隱狀態作為輸出,具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110931513.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防波動液位測量裝置
- 下一篇:貨物組合方法、裝置及電子設備





