[發明專利]基于輸入輸出互注意力和隱層自注意力的StyleGAN圖像重構方法在審
| 申請號: | 202310433614.8 | 申請日: | 2023-04-21 |
| 公開(公告)號: | CN116402915A | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 孫力;夏思為 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06N3/045;G06N3/0475;G06N3/08 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 輸入輸出 注意力 stylegan 圖像 方法 | ||
本發明提供了一種基于輸入輸出互注意力和隱層自注意力的StyleGAN圖像重構方法,其特點是用編碼器將輸入圖像映射為特征,通過構建隱層自注意力與輸入互注意力模塊從特征中提取信息,得到隱層碼字;通過構建輸出互注意力模塊從隱層碼字中提取信息,得到風格碼字,將輸出的風格碼字送入預訓練的StyleGAN生成器,得到重構圖像;將編碼器、隱層自注意力與輸入互注意力模塊、輸出互注意力模塊組合成一個編碼網絡,固定StyleGAN生成器,訓練編碼網絡,實現圖像重構質量的提升。本發明與現有技術相比,具有增加少量的參數量與計算量,就能顯著提高重構圖像質量的特點,較好地解決了編碼器學習圖像信息不足而導致的重構圖像質量差的問題。
技術領域
本發明屬于深度學習技術領域,尤其是一種基于輸入輸出互注意力和隱層自注意力的StyleGAN圖像重構方法。
背景技術
目前,StyleGAN在圖像生成方面取得了許多成功,該模型生成的圖像具有高清、自然的優點,同時其語義上解糾纏的潛在空間為圖像編輯提供了自由度。圖像重構任務旨在將輸入圖像映射到潛在空間,使得潛在空間的風格碼字通過生成器生成接近原圖的重構圖像,這有利于下游真實圖像編輯任務。訓練StyleGAN模型的時間與計算資源代價極大,因此許多方法利用預訓練StyleGAN模型實現圖像重構以提高效率。
利用預訓練StyleGAN模型的圖像重構方法可以分為兩種:基于優化的重構與基于編碼器的重構。基于優化的重構方法可以重構出更接近原圖的圖像,但推理速度慢,可編輯性難以控制;基于編碼器的重構方法,推理的速度更快,利用的計算資源更少。基于編碼器的重構方法,需要構建一個編碼器將輸入圖像編碼為風格碼字,再將風格碼字輸入預訓練StyleGAN模型的生成器中得到重構圖像,通過計算重構圖像與原圖之間的均方誤差損失、感知損失和身份識別損失完成對編碼器的訓練。
現有的基于編碼器的重構方法,通常采用卷積神經網絡作為編碼器結構,這種結構感受野小,只能對圖像的局部信息建立聯系,無法對圖像特征進行長距離建模,有丟失全局空間信息的風險。Transformer結構中的注意力模塊關注全局信息,可以彌補卷積神經網絡的感受野局限性,因此,提供一種合理利用注意力模塊的StyleGAN圖像重構方法十分必要。
發明內容
本發明的目的是針對現有技術的不足而提供一種基于輸入輸出互注意力和隱層自注意力的StyleGAN圖像重構方法,提升重構圖像的質量:將編碼器、隱層自注意力與輸入互注意力模塊、輸出互注意力模塊組合成一個編碼網絡,訓練編碼網絡,將編碼網絡輸出的風格碼字送入預訓練的StyleGAN生成器,得到重構圖像,方法通過增加少量的參數量與計算量,顯著提高重構圖像質量,較好地解決了編碼器學習圖像信息不足而導致的重構圖像質量差的問題。
本發明的目的是這樣實現的:
一種基于輸入輸出互注意力和隱層自注意力的StyleGAN圖像重構方法,其特點是將編碼器、隱層自注意力與輸入互注意力模塊、輸出互注意力模塊組合成一個編碼網絡,訓練編碼網絡,將編碼網絡輸出的風格碼字送入預訓練的StyleGAN生成器,實現重建圖像質量的提升,具體包括以下步驟:
步驟1:用編碼器將輸入圖像映射為特征,通過構建隱層自注意力與輸入互注意力模塊從特征中提取信息,得到隱層碼字;
步驟2:通過構建輸出互注意力模塊從隱層碼字中提取信息,得到風格碼字,將輸出的風格碼字送入預訓練的StyleGAN生成器,得到重構圖像;
步驟3:將編碼器、隱層自注意力與輸入互注意力模塊和輸出互注意力模塊組合成一個編碼網絡,固定StyleGAN生成器,訓練編碼網絡,實現圖像重構質量的提升。
所述隱層自注意力與輸入互注意力模塊,由若干隱層自注意力模塊與若干輸入互注意力模塊交叉串聯構成;隱層自注意力模塊由自注意力模塊構成,通過隱層碼字的自我提煉更新隱層碼字;輸入互注意力模塊由交叉注意力模塊構成,用編碼器提取的輸入圖像特征更新初始隱層碼字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310433614.8/2.html,轉載請聲明來源鉆瓜專利網。





