[發明專利]一種基于文本語義的細節保持圖像生成方法及系統有效
| 申請號: | 202110455323.X | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113343705B | 公開(公告)日: | 2022-07-05 |
| 發明(設計)人: | 劉麗;馬躍;崔懷磊;王澤康;張化祥;馮珊珊 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06K9/62;G06N3/04;G06N3/08;G06V10/774;G06V10/82 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 董雪 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 語義 細節 保持 圖像 生成 方法 系統 | ||
本公開公開的一種基于文本語義的細節保持圖像生成方法及系統,包括:獲取文本信息;提取文本信息的文本特征、句子特征和單詞特征;將文本特征、句子特征和單詞特征輸入訓練好的圖像生成對抗網絡中,輸出文本圖像;其中,圖像生成對抗網絡包括基于混合注意力模塊與細節優化模塊的生成網絡和基于深度注意力多態相似模型的判別網絡。保證了生成的文本圖像的準確率。
技術領域
本發明涉及跨模態文本生成圖像技術領域,尤其涉及一種基于文本語義的細節保持圖像生成方法及系統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
生成在語義上與給定文本描述相匹配的高細粒度圖像是一個具有挑戰性的問題,并且具有巨大的潛在應用,包括照片編輯,圖像修復,圖像著色,風格遷移,計算機輔助設計等。近來,由于生成對抗網絡(GAN)的提出,文本到圖像的生成已取得了顯著進展。
文本生成圖像的方法中,Reed等人提出的生成對抗網絡(GAN)大大提高了文本生成圖像的效果,并成為后來的主流思想。Zhang等人提出了堆疊生成對抗網絡(StackGANs),采用多階段GAN來分步生成圖像,旨在生成高分辨率的真實感圖片。更進一步,其后續提出的堆疊生成對抗網絡(StackGAN++),將GAN擴充成一個樹狀的結構,采用了多個生成器和多個鑒別器并行訓練,保證了逐步提取更加精細的文本信息。Xu提出注意力對抗生成網絡(AttnGAN),利用一種新穎的注意力生成網絡,允許注意力驅動的、多階段的細化來生成細粒度高的的圖像。MirrorGAN實現圖像到文本的轉換來增強語義一致性,該過程將重新生成的文本與原始文本描述進行比較以獲得精準的梯度信息。Park等人提出了一種多條件生成對抗網絡(MC-GAN),它可以根據文本描述在不包含類似對象的基礎圖像上繪制目標對象。
現有的文本到圖像方法生成的樣本可以大致反映給定描述的含義,但是,訓練GAN從文本描述生成高分辨率的逼真的圖像并不容易,在最新的GAN模型中簡單地添加更多的上采樣層以生成高分辨率圖像通常會導致訓練不穩定,無法包含一些必要的細節和生動的圖像部分并且產生無意義的輸出。細節優化旨在修改圖像的某些方面,使其生成一些必要的細節和生動的圖像來滿足需求,生成高細粒度,高語義一致性的圖像。于是,Li等人提出了一種可控的文本圖像生成對抗網絡(ControlGAN),該網絡根據自然語言描述控制圖像生成的各個細節部分。更進一步,Li等人提出的文字引導的圖像處理生成網絡(ManiGAN),實現在語義上編輯圖像的各個部分,以匹配描述給定文本的各個細節部分。然而,通過融合文本和圖像信息,實現以文本描述為指導的有效圖像處理,需要同時利用文本和圖像跨模態信息,生成與給定文本匹配的新屬性,現有方法通常選擇沿通道方向直接合并圖像和全局句子特征,無法將細粒度詞與需要細節修正的相應視覺屬性精確關聯,從而導致不準確和粗略的細節修正。例如,模型無法生成詳細的視覺屬性,例如眼圈顏色等。
發明內容
本公開為了解決上述問題,提出了一種基于文本語義的細節保持圖像生成方法及系統,能夠將文本準確的轉換為圖像。
為實現上述目的,本公開采用如下技術方案:
第一方面,提出了一種基于文本語義的細節保持圖像生成方法,包括:
獲取文本信息;
提取文本信息的文本特征、句子特征和單詞特征;
將文本特征、句子特征和單詞特征輸入訓練好的圖像生成對抗網絡中,輸出文本圖像;
其中,圖像生成對抗網絡中的生成網絡包括多階段圖像特征轉換網絡,在每一階段網絡中添加細節優化模塊,細節優化模塊對每一階段網絡的隱藏特征進行優化,輸出隱藏的視覺特征,隱藏的視覺特征輸入生成器中,輸出合成圖像,除最后一階段外的其余階段網絡的細節優化模塊輸出的隱藏的視覺特征還與單詞特征一起輸入混合注意力模塊中,輸出注意力單詞語境特征,注意力單詞語境特征與當前階段網絡生成的隱藏特征連接后輸入下一階段網絡中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110455323.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種浮動采光的植物細胞培養裝置
- 下一篇:一種共享單車流量預測方法及系統





