[發明專利]基于視覺與主題協同注意力的連貫性故事生成系統及方法在審
| 申請號: | 202110931513.4 | 申請日: | 2021-08-13 |
| 公開(公告)號: | CN113779938A | 公開(公告)日: | 2021-12-10 |
| 發明(設計)人: | 王瀚漓;谷金晶 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/216;G06F16/35;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 視覺 主題 協同 注意力 連貫性 故事 生成 系統 方法 | ||
1.一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,該系統包括:
圖像相冊特征編碼模塊:用以提取相冊特征向量以及時間動態信息;
主題感知模塊:由故事描述文本主題挖掘模型和主題分布預測模型構成,用以獲取每條描述語句的主題概率分布并預測相冊中每幅圖像中的主題分布信息;
視覺與主題協同注意力模塊:分別與圖像相冊特征編碼模塊和主題感知模塊連接,用以基于視覺與主題協同注意力生成主題連貫性的圖像描述語句。
2.根據權利要求1所述的一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,所述的圖像相冊特征編碼模塊的數據處理步驟為:
11)圖像特征提取:采用ResNet-152模型提取相冊j中作為圖像相冊視覺編碼信息的每幅圖像的圖像特征后通過平均池化層獲得相冊特征向量;
12)相冊特征編碼:將提取出的相冊特征向量輸入帶有殘差模塊的雙向門控循環單元GRU中,獲取相冊的時間動態信息。
3.根據權利要求1所述的一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,所述的主題感知模塊的數據處理步驟為:
21)故事描述文本主題挖掘:采用LDA主題模型從視覺描述文本中提取每條描述語句的主題概率分布其中,主題詞涉及與主題相近的目標主體和動作;
22)主題分布預測:將相冊中每幅圖像的圖像特征輸入長短時序列神經網絡LSTM中進行預測,得到相冊中每幅圖像中的主題預測分布
4.根據權利要求1所述的一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,所述的視覺與主題協同注意力模塊包括基于GRU的自上而下視覺注意力模型、基于GRU的自上而下主題注意力模型以及分別與視覺與主題協同注意力模塊包括基于GRU的自上而下視覺注意力模型和基于GRU的自上而下主題注意力模型連接的連貫性語句生成模型組成。
5.根據權利要求4所述的一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,所述的基于GRU的自上而下視覺注意力模型以上一個時間步的隱狀態、圖像相冊視覺編碼信息以及在當前時間步前已經生成的單詞Weχt-1作為輸入,以視覺權重分布和當前時間步的隱狀態作為輸出,具體為:
其中,θj,t為時間步t圖像相冊j的時間動態信息的正則化注意力權重,tanh(·)表示雙曲正切函數,Wv和Wa為轉換矩陣,表示向量連接運算符,為基于GRU的自上而下視覺注意力模型在時間步t-1時第j個相冊特征的隱狀態,為權重參數,為第j個相冊在時間步t的視覺權重分布,softmax(·)為歸一化指數函數,We為大小為Ω的詞匯表單詞嵌入矩陣,χt-1為輸入單詞在時間步t-1的獨熱編碼。
6.根據權利要求5所述的一種基于視覺與主題協同注意力的連貫性故事生成系統,其特征在于,所述的基于GRU的自上而下主題注意力模型自上而下的主題注意力GRU模型的上一個時間步的隱狀態、相冊中每一幅圖像的主題概率分布和主題預測分布以及在當前時間步前已經生成的單詞Weχt-1作為輸入,以主題權重分布和當前時間步的隱狀態作為輸出,具體為:
其中,bj,t為時間步t圖像相冊特征的正則化注意力權重,Wd和Wc為轉換矩陣,為基于GRU的自上而下主題注意力模型在時間步t-1時第j個相冊特征的隱狀態,為權重參數,為第j個相冊在時間步t的主題權重分布,為第j個相冊在時間步t的主題概率分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110931513.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防波動液位測量裝置
- 下一篇:貨物組合方法、裝置及電子設備





