[發(fā)明專利]一種無監(jiān)督多模態(tài)對抗自編碼的圖像生成方法及框架有效
| 申請?zhí)枺?/td> | 201910454914.8 | 申請日: | 2019-05-29 |
| 公開(公告)號: | CN110163796B | 公開(公告)日: | 2023-03-24 |
| 發(fā)明(設(shè)計)人: | 白靜;陳冉;姬卉;李賽賽 | 申請(專利權(quán))人: | 北方民族大學(xué) |
| 主分類號: | G06T3/00 | 分類號: | G06T3/00 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 750021 寧夏回族*** | 國省代碼: | 寧夏;64 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 監(jiān)督 多模態(tài) 對抗 編碼 圖像 生成 方法 框架 | ||
1.一種無監(jiān)督多模態(tài)對抗自編碼的圖像生成方法,其特征在于,包括以下步驟:
S1、輸入一組共n個同域的圖像數(shù)據(jù),它們來自于相同的數(shù)據(jù)分布,彼此共享部分公有屬性,且各自擁有一些差異屬性;相同的數(shù)據(jù)分布指的是數(shù)據(jù)的來源具有一致性;差異屬性指的是在圖像中,同一個物體在不同季節(jié)、不同光照、不同時間和不同角度下產(chǎn)生的變化;
S2、將輸入的圖像數(shù)據(jù)分別傳入到可變屬性編碼器和固有屬性編碼器中,解耦出數(shù)據(jù)的固有屬性編碼和可變屬性編碼;
可變屬性編碼器將數(shù)據(jù)間的差異屬性作為可變屬性,采用卷積、全局池化、再卷積的設(shè)計模式,提取圖像特征并編碼,記為可變屬性編碼EV;其中,所述卷積共包含五個卷積層,第一個為7*7卷積層,旨在進(jìn)行淺層特征的初步提取,第二至第五個是4個連續(xù)的4*4卷積層,旨在同時實現(xiàn)圖像的下采樣和特征的進(jìn)一步抽象;緊隨其后的是全局池化層和1*1再卷積層,都旨在提取圖像的高度抽象特征;
固有屬性編碼器將數(shù)據(jù)間的公有屬性作為固有屬性,采用卷積、下采樣、殘差塊的設(shè)計模式,提取圖像特征并編碼,記為固有屬性編碼EI;其中,所述卷積共包含五個卷積層,第一個為7*7卷積層,旨在進(jìn)行淺層特征的初步提取,第二至第五個是4個連續(xù)的4*4卷積層,旨在同時實現(xiàn)圖像的下采樣和特征的進(jìn)一步抽象;所述下采樣的作用是降低特征維度,減少冗余信息;而最后的殘差塊設(shè)計為一種實例正則化密集殘差塊,目的是確保語義特征不變的前提下保留更加豐富的細(xì)節(jié)特征;
S3、在無監(jiān)督條件下,將可變屬性編碼及其相應(yīng)的對抗網(wǎng)絡(luò)進(jìn)行對抗學(xué)習(xí),以求解出可變屬性編碼的先驗分布空間;
對抗網(wǎng)絡(luò)由(256,64,16,1)連續(xù)四個全連接層組成,將來自可變屬性編碼器中解耦出的可變屬性編碼所對應(yīng)的分布作為先驗分布,從正態(tài)分布中隨機采樣的噪聲數(shù)據(jù)所對應(yīng)的分布為后驗分布,從先驗分布和后驗分布中隨機采樣相同維度的數(shù)據(jù)送入對抗網(wǎng)絡(luò)中,最后輸出為0或1的二分類結(jié)果;后驗分布是已經(jīng)知道的正態(tài)分布,通過對抗網(wǎng)絡(luò),當(dāng)先驗分布和后驗分布的對抗學(xué)習(xí)達(dá)到平衡后,先驗分布能夠近似等價為后驗分布;
S4、在無監(jiān)督條件下,隨機從可變屬性編碼的先驗分布空間中采樣,并聯(lián)合固有屬性編碼通過解碼器,完成單一域數(shù)據(jù)的多模態(tài)翻譯,實現(xiàn)多屬性的變換并生成對應(yīng)的圖像;
解碼器以可變屬性編碼器提取的可變屬性編碼EV為輸入,先后通過1*1*8、1*1*256和1*1*256的3個多層感知機MLP,將可變屬性編碼映射為256維特征,并連同固有屬性編碼共同輸入自適應(yīng)正則化AdaIn層;設(shè)可變屬性特征為xv,固有屬性特征為xI,通過MLP得到的參數(shù)為δ(*)和μ(*),則AdaIn層通過下面公式完成兩種屬性的融合:
然后,利用最近鄰插值算法實現(xiàn)融合特征的上采樣,并送入5*5卷積層完成最終解碼,輸出生成圖像。
2.一種無監(jiān)督多模態(tài)對抗自編碼的圖像生成框架,其特征在于:包括固有屬性編碼器、可變屬性編碼器、解碼器和對抗網(wǎng)絡(luò),其中:
所述固有屬性編碼器用于在無監(jiān)督多模態(tài)對抗自編碼中,以同域內(nèi)的一組數(shù)據(jù)為輸入,將數(shù)據(jù)間的公有屬性作為固有屬性,提取圖像特征并編碼,記為固有屬性編碼EI;所述固有屬性編碼器采用卷積、下采樣、殘差塊的設(shè)計模式,所述卷積共包含五個卷積層,第一個為7*7卷積層,旨在進(jìn)行淺層特征的初步提取,第二至第五個是4個連續(xù)的4*4卷積層,旨在同時實現(xiàn)圖像的下采樣和特征的進(jìn)一步抽象;所述下采樣的作用是降低特征維度,減少冗余信息;而最后的殘差塊設(shè)計為一種實例正則化密集殘差塊,目的是確保語義特征不變的前提下保留更加豐富的細(xì)節(jié)特征;
所述可變屬性編碼器以同域內(nèi)的一組數(shù)據(jù)為輸入,將數(shù)據(jù)間的差異屬性作為可變屬性,提取圖像特征并編碼,記為可變屬性編碼EV;所述可變屬性編碼器采用卷積、全局池化、卷積的設(shè)計模式,卷積共包含五個卷積層,第一個為7*7卷積層,旨在進(jìn)行淺層特征的初步提取,第二至第五個是4個連續(xù)的4*4卷積層,旨在同時實現(xiàn)圖像的下采樣和特征的進(jìn)一步抽象;緊隨其后的是全局池化層和1*1再卷積層,都旨在提取圖像的高度抽象特征;
所述對抗網(wǎng)絡(luò)由(256,64,16,1)連續(xù)四個全連接層組成,將來自可變屬性編碼器中解耦出的可變屬性編碼所對應(yīng)的分布作為先驗分布,從正態(tài)分布中隨機采樣的噪聲數(shù)據(jù)所對應(yīng)的分布為后驗分布,從先驗分布和后驗分布中均隨機采樣相同維度的數(shù)據(jù)送入對抗網(wǎng)絡(luò)中,最后輸出為0或1的二分類結(jié)果,后驗分布是已經(jīng)知道的正態(tài)分布,通過對抗網(wǎng)絡(luò),當(dāng)先驗分布和后驗分布的對抗學(xué)習(xí)達(dá)到平衡后,先驗分布能夠近似等價為后驗分布;
所述解碼器以可變屬性編碼EV為輸入,先后通過1*1*8、1*1*256和1*1*256的3個多層感知機MLP,將可變屬性編碼映射為256維特征,并連同固有屬性編碼共同輸入自適應(yīng)正則化AdaIn層;設(shè)可變屬性特征為xv,固有屬性特征為xI,通過MLP得到的參數(shù)為δ(*)和μ(*),則AdaIn層通過下面公式完成兩種屬性的融合:
然后,利用最近鄰插值算法實現(xiàn)融合特征的上采樣,并送入5*5卷積層完成最終解碼,輸出生成圖像。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北方民族大學(xué),未經(jīng)北方民族大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910454914.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在即時通信中提供即時監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對象尋址方法、電子設(shè)備及存儲介質(zhì)
- 一種機器人表情調(diào)用方法和家用機器人
- 計算機視覺訓(xùn)練系統(tǒng)和用于訓(xùn)練計算機視覺系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法
- 用于智能機器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)





