[發(fā)明專利]一種基于語義的多姿勢虛擬試衣方法有效
| 申請?zhí)枺?/td> | 202110304724.5 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN113361560B | 公開(公告)日: | 2023-03-24 |
| 發(fā)明(設(shè)計)人: | 張建明;宋陽;王志堅 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06Q30/0601;G06V40/10;G06V10/82;G06V10/764;G06V10/80;G06N3/0464;G06N3/084;G06N3/0455;G06N3/0475;G06N3/094 |
| 代理公司: | 杭州浙科專利事務(wù)所(普通合伙) 33213 | 代理人: | 孫孟輝 |
| 地址: | 315400 浙江省寧波市余*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 語義 多姿 虛擬 試衣 方法 | ||
1.一種基于語義的多姿勢虛擬試衣方法,其特征在于,包括以下步驟:
步驟101,用戶選擇人體圖像、目標(biāo)衣服和需要試穿的人體姿勢圖;
步驟102,分別提取人體圖像的語義信息,生成人體語義解析圖,同時根據(jù)語義解析圖,采用空間轉(zhuǎn)換網(wǎng)絡(luò),對目標(biāo)衣服進(jìn)行扭轉(zhuǎn)變形;
步驟103,將變形后的衣服、人體語義表征、人體姿勢表征送入條件式生成對抗網(wǎng)絡(luò)中,得到初始的試衣結(jié)果;
步驟104,采用由粗到細(xì)的圖像合成方法,生成試衣結(jié)果時,在神經(jīng)網(wǎng)絡(luò)中間層采用語義條件空間歸一化操作,保留衣服語義并和人體其他語義分離開;訓(xùn)練時,通過變分自編碼器VAE生成的語義標(biāo)簽作為輸入,在測試階段,不生成語義標(biāo)簽;
步驟105,通過訓(xùn)練好的模型對用戶輸入的目標(biāo)姿勢、目標(biāo)衣服和人體圖像進(jìn)行測試,輸出并顯示用戶指定目標(biāo)衣服和姿勢的虛擬試衣結(jié)果;
所述步驟102具體為:
提取人體圖像語義信息,包括人體衣服語義、身體部分語義、頭發(fā)和臉部語義和褲子語義;
所述的空間轉(zhuǎn)換網(wǎng)絡(luò)采用薄板樣條插值法對目標(biāo)衣服進(jìn)行扭轉(zhuǎn)變形,采用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測薄板樣條插值法的參數(shù)θ,在卷積神經(jīng)網(wǎng)絡(luò)的第3,4,5層,使用帶偏移量的卷積核代替常規(guī)卷積核,將常規(guī)的感受野網(wǎng)格增強(qiáng)為帶有偏移量{Δpn|n=1,...,N}的網(wǎng)格其中帶有偏移量的不規(guī)則采樣坐標(biāo)變成了pn+Δpn,對Δpn進(jìn)行雙線性插值轉(zhuǎn)換,將其轉(zhuǎn)換成整數(shù),其中p代表任意位置的坐標(biāo),q列舉了所有特征圖中的整數(shù)空間位置,G(·,·)是雙線性插值操作,G是二維運(yùn)算,被分成兩個維度的運(yùn)算:單獨(dú)維度的線性插值運(yùn)算為:a,b分別是一維空間中兩個點(diǎn)的坐標(biāo),同時,在生成變形后的目標(biāo)衣服后,對參數(shù)θ進(jìn)行修正,得到人體衣服語義匹配的預(yù)測參數(shù)(θ+Δθ)。
2.如權(quán)利要求1所述的一種基于語義的多姿勢虛擬試衣方法,其特征在于,所述步驟103中的人體語義表征包括人體衣服語義、身體部分語義、頭發(fā)和臉部語義的單通道掩膜,所述人體姿勢表征采用18個人體姿勢關(guān)鍵點(diǎn)來表示,所述關(guān)鍵點(diǎn)被轉(zhuǎn)換成18通道的姿勢熱圖;所述條件式生成對抗網(wǎng)絡(luò)包括生成器和判別器,所述生成器由特征提取器即編碼器和Unet神經(jīng)網(wǎng)絡(luò)組成,特征提取器分別提取變形衣服、人體語義掩膜和姿勢表征的高階特征,接著將所述高階特征送入Unet神經(jīng)網(wǎng)絡(luò)中完成特征的融合,所述判別器由下采樣卷積模塊和最后的全連接層組成,對真實的條件和人體圖像判斷為真,對生成器生成的結(jié)果和條件判斷為假。
3.如權(quán)利要求1所述的一種基于語義的多姿勢虛擬試衣方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)為條件式對抗生成網(wǎng)絡(luò),其目標(biāo)函數(shù)為:全局GAN損失函數(shù)為:
其中分別表示判別器對于真實圖像分布和生成圖像分布的判別期望值,G表示生成器,D表示判別器,分別是判別器最小化解糾纏生成器生成分布判別期望和最大化真實分布判別期望,Z表示隨機(jī)噪聲變量,xtrue表示真實服裝圖像,condition表示試衣圖像的語義分割標(biāo)簽和變形衣服的掩膜。
4.如權(quán)利要求1所述的一種基于語義的多姿勢虛擬試衣方法,其特征在于,所述生成試衣結(jié)果時,采用的語義條件空間歸一化操作,是指在每次上采樣過程中,都對特征圖進(jìn)行空間歸一化操作,將人體語義圖像映射到編碼空間,通過兩次卷積網(wǎng)絡(luò)輸出生成調(diào)制參數(shù)包括斜率γ和偏差β,所述卷積網(wǎng)絡(luò)的卷積核大小為3×3,通道數(shù)分別與輸入通道和特征圖數(shù)量匹配,斜率γ和偏差β不是傳統(tǒng)歸一化方法中的向量,而是帶有空間維度的張量,在高度為h,寬度為w,通道數(shù)為c的第n張圖片,其空間歸一化過程為:其中和是歸一化層學(xué)習(xí)到的參數(shù),是歸一化之前的第i層激活層,是和分別是激活層在通道c的均值和標(biāo)準(zhǔn)差,計算公式為:
5.如權(quán)利要求1所述的一種基于語義的多姿勢虛擬試衣方法,其特征在于,所述訓(xùn)練時,將通過生變分自編碼器VAE生成的語義標(biāo)簽作為輸入,具體為:使用變分自編碼器VAE生成兩個新的語義標(biāo)簽l1和l2,將其送入生成器,分別生成兩個試衣結(jié)果,再將這兩個試衣結(jié)果進(jìn)行融合,同真實試衣結(jié)果進(jìn)行誤差反向傳播。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304724.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





