[發明專利]一種基于注意力機制和流模型的圖像生成方法在審
| 申請號: | 202110993967.4 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113706650A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 任俞睿;吳玉博;龍仕強 | 申請(專利權)人: | 深圳龍崗智能視聽研究院 |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06N3/02;G06N3/08 |
| 代理公司: | 北京京萬通知識產權代理有限公司 11440 | 代理人: | 萬學堂;王躍交 |
| 地址: | 518116 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 模型 圖像 生成 方法 | ||
本發明的基于注意力機制和流模型的圖像生成方法,包括以下步驟:S1.訓練數據預處理;S2.將預處理后的訓練數據進入子任務一,使用注意力機制提取相關矩陣,用于生成有準確結構信息的中間結果;S3.訓練數據進入子任務二,使用流模型預測流場,用于生成具有豐富細節信息的中間結果;S4.將子任務一生成的相關矩陣與子任務二生成的流場在不同尺度下一一對應地輸入到子任務三中,使用內容感知網絡生成權重圖;以及S5.子任務一、子任務二、子任務三的生成結果和訓練數據進入主任務,使用編碼器?解碼器的網絡生成人體圖像,輸出圖像。本發明方法能夠兼顧結構信息和細節信息,從而獲得更佳的生成質量。
技術領域
本發明涉及圖像生成和生成對抗網絡領域,具體地,涉及一種基于注意力機制和流模型的圖像生成方法。
背景技術
隨著深度學習和神經網絡的不斷發展,計算機視覺和圖像處理領域受到了廣泛的關注。其中,近年來興起的姿態引導的人體圖像生成任務是計算機視覺領域中的一個比較有挑戰性和實際功用的課題。它的核心任務是將給定圖像中的人物通過一系列的空間變換轉換成目標姿態中的樣子。這一任務有著諸多的難點,例如生成圖像中的結構信息不完整,紋理信息的缺失等等。
在人體圖像生成任務剛提出時,大多數方法使用簡單的編碼器-解碼器結構。但由于缺少高效的轉換模塊,大量有用的信息會在卷積過程中丟失,導致生成圖像的質量較低。近幾年的人體圖像生成方法可以大致分為兩種類型。
第一種是基于流的方法,即借助從源圖像到目標圖像的流場將源圖像的像素扭曲到目標姿態對應的位置。這種方法可以更好地保留源圖像的紋理細節并生成更逼真的輸出。然而,雖然基于流的方法可以對相鄰區域的變形建立聯系,但很難對長期相關性進行建模,同時,由于有些部位并沒有出現在原圖像中,這就會導致生成圖像的結構并不準確。
另一種方法是使用信息注入的方式,通過將源圖像的人體屬性解耦為各個語義部位,并提取中每個語義部位的特征,之后將特征解碼到目標姿態中對應位置的方式來生成圖像。這種方法通常可以生成較為準確的結構,但難以保留原圖像各語義部位的清晰紋理。
總而言之,現行的方法雖然可以在某些方面有比較好的表現,但大多難以同時兼顧紋理信息和結構信息。
發明內容
本發明提供了一種基于注意力機制和流模型的圖像生成方法,能夠兼顧結構信息和細節信息,從而獲得更佳的生成質量。
本發明的技術方案如下:
本發明的基于注意力機制和流模型的圖像生成方法,包括以下步驟:S1.訓練數據預處理;S2.將預處理后的訓練數據進入子任務一,使用注意力機制提取相關矩陣,用于生成有準確結構信息的中間結果;S3.訓練數據進入子任務二,使用流模型預測流場,用于生成具有豐富細節信息的中間結果;S4.將子任務一生成的相關矩陣與子任務二生成的流場在不同尺度下一一對應地輸入到子任務三中,使用內容感知網絡生成權重圖;以及S5.子任務一、子任務二、子任務三的生成結果和訓練數據進入主任務,使用編碼器-解碼器的網絡生成人體圖像,輸出圖像。
優選的,在上述基于注意力機制和流模型的圖像生成方法中,在步驟S1中,輸入圖像,進行數據預處理,將訓練數據處理為模型需要的大小和格式,生成原圖像和目標圖像的姿態圖。
優選的,在上述基于注意力機制和流模型的圖像生成方法中,在步驟S2中,將原圖像和目標圖像的姿態圖輸入到子任務一中,使用基于注意力機制的相關矩陣提取器提取不同尺度下原圖像和目標圖像的姿態圖之間的相關矩陣,以平均絕對誤差作為損失函數,生成有準確結構信息的中間結果。
優選的,在上述基于注意力機制和流模型的圖像生成方法中,在步驟S3中,將原圖像、原圖像的姿態圖和目標圖像的姿態圖輸入到子任務二中,使用流模型預測器預測不同尺度下從原圖像到目標圖像的姿態圖的流場,以采樣正確性損失和正則化損失作為損失函數,用于生成具有豐富細節信息的中間結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳龍崗智能視聽研究院,未經深圳龍崗智能視聽研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110993967.4/2.html,轉載請聲明來源鉆瓜專利網。





