[發明專利]一種基于語義一致性的雙向文本生成圖像方法及系統在審
| 申請號: | 202110516474.1 | 申請日: | 2021-05-12 |
| 公開(公告)號: | CN113361250A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 劉麗;崔懷磊;王澤康;馬躍;張化祥 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/126;G06F40/30;G06K9/46;G06N3/04;G06T11/00 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 祖之強 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 一致性 雙向 文本 生成 圖像 方法 系統 | ||
本發明提供了一種基于語義一致性的雙向文本生成圖像方法及系統,包括:獲取自然語言,將自然語言輸入文本編碼器,提取單詞向量和句子向量;分別將句子向量輸入到圖像生成網絡,單詞向量輸入到詞級空間注意力機制模塊,并將生成網絡中每個階段產生的圖像特征與經過注意力機制調整后的單詞向量進行串聯,作為生成網絡的下一個階段的輸入,經過多個階段細化,最終生成圖像;再將生成的圖像輸入圖像編碼器,提取圖像特征;將圖像特征輸入帶有哨兵機制的長短期記憶網絡,輸出重描述的文本;采用兩個對抗損失函數對圖像和重描述文本進行優化后,引入基于交叉熵的語義文本重建損失進一步對圖像進行優化,直到圖像重描述的文本與自然語言一致,輸出圖像。
技術領域
本發明屬于跨模態圖像生成技術領域,尤其涉及一種基于語義一致性的雙向文本生成圖像方法及系統。
背景技術
本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
文本生成圖像是根據給定的自然語言描述生成與之相匹配的高分辨率且視覺真實的圖像,其在虛擬現實、娛樂、電子競技游戲以及計算機輔助設計等領域中有著廣泛的應用前景。近年來,生成對抗性網絡(GAN)已經在生成逼真的圖像方面取得了很大進展,利用生成對抗網絡的框架,文本生成圖像已經提出諸多的生成高質量圖像的方法。通過實現條件對抗生成網絡,文本到圖像生成取得了顯著的進步,它們能夠根據給定的自然語言描述生成逼真的圖像。例如,Attn GAN借助注意力機制,通過關注自然語言描述中的相關單詞來生成圖像各個子區域的細粒度細節,實現注意力驅動多階段細化生成高質量的圖像。StackGAN將圖像生成過程分解為更易于分析和解決的子問題,并進一步提出兩個階段的生成對抗網絡架構,實現生成圖像的多階段細化,以生成高分辨率的圖像。HD GAN通過引入可擴展的生成器體系結構,在圖像生成過程中輔助生成器獲取到更多的圖像信息,以提高生成圖像的分辨率。盡管在上述方法中使用生成對抗網絡框架在生成視覺真實的圖像方面已經取得了重大進展,但在保證生成的圖像與給定的文本描述之間的語義一致性方面仍然面臨著諸多挑戰。
文本描述在文本生成圖像方面發揮著重要作用,這與其他的圖像生成問題有所不同,因此生成圖像與給定文本描述之間的語義一致性問題更值得關注。在以往的方法中,文本生成圖像主要依靠鑒別器來對抗生成圖像,但是只依靠鑒別器并不能很好保證文本與生成圖像之間的語義一致性。由于文本與圖像之間的跨模態差異,僅僅利用生成對抗網絡(GAN)框架并不能很好地解決生成圖像與給定文本之間的語義不一致問題。其實,文本生成圖像可以是圖像描述(圖像生成文本)的逆問題,圖像描述問題是根據給定的圖像去生成相匹配的文本描述。最近,Mirror GAN提出用文本到圖像再到文本的框架來解決生成圖像的語義不一致問題。Mirror GAN由語義文本嵌入模塊,全局-局部級聯生成模塊以及語義文本再生和對齊模塊構成。其中,語義文本再生和對齊模塊是根據生成的圖像重新生成文本描述,使得圖像在語義上與給定的文本描述保持一致。但是,Mirror GAN在圖像重新生成文本描述階段中使用的是比較常見的編碼器-解碼器框架,這不能保證重描述文本的真實性。因此在語義文本再生和對齊方面還有很大的改進和提升空間。此外,注意力機制在文本生成圖像領域得到廣泛的應用,但是傳統的注意力機制只關注整個句子的全局向量,卻忽視了對詞級局部信息的關注。
由上述分析可得,目前文本生成圖像的重點在于保證生成圖像的視覺真實性,但是生成圖像與文本之間的語義不一致問題并未得到解決。
發明內容
為了解決上述背景技術中存在的技術問題,本發明提供一種基于語義一致性的雙向文本生成圖像方法及系統,通過引入詞級空間通道注意力機制和文本再描述框架構造了一個雙向文本生成圖像網絡模型:在第一模塊,即文本生成圖像模塊,通過多階段生成網絡將句子級注意力和單詞級注意力融合,根據文本描述生成圖像,保證生成圖像的視覺真實性;在第二模塊,即圖像再生成文本模塊,通過文本再描述框架把第一階段生成的圖像再描述生成文本,并將再生成的文本與初始文本進行比對,通過引入誤差函數,使得圖像在底層語義上與初始文本保持一致,確保生成圖像的語義一致性。
為了實現上述目的,本發明采用如下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110516474.1/2.html,轉載請聲明來源鉆瓜專利網。





