[發(fā)明專利]一種基于球坐標(biāo)位置圖的單視圖三維人臉重建方法有效
| 申請?zhí)枺?/td> | 202010114817.7 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111292415B | 公開(公告)日: | 2022-03-29 |
| 發(fā)明(設(shè)計)人: | 葉超;袁群勇;肖南峰 | 申請(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號: | G06T17/00 | 分類號: | G06T17/00;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 坐標(biāo) 位置 視圖 三維 重建 方法 | ||
1.一種基于球坐標(biāo)位置圖的單視圖三維人臉重建方法,其特征在于,包括以下步驟:
1)輸入包含人臉的單視圖,檢測出圖中人臉?biāo)谖恢茫?/p>
2)根據(jù)檢測出的位置裁剪出單視圖上的人臉圖像,轉(zhuǎn)換為固定的大小后進行預(yù)處理;
3)將預(yù)處理后的圖像輸入到編碼器,編碼器輸出特征圖;
將步驟2)預(yù)處理后的圖像輸入編碼器,編碼器內(nèi)部由多個卷積神經(jīng)網(wǎng)絡(luò)組合而成,其從256*256*3的圖片中提取出8*8*512的特征圖;編碼器內(nèi)部先采用內(nèi)核大小為4、步長為1的卷積層輸出維度為256*256*16的特征圖,后面采用10個殘差塊串聯(lián),每個殘差塊輸出的特征圖都用作下一個殘差塊的輸入,這些殘差塊輸出的特征圖維度依次為128*128*32、128*128*32、64*64*64、64*64*64、32*32*128、32*32*128、16*16*256、16*16*256、8*8*512、8*8*512;
殘差塊的數(shù)學(xué)結(jié)構(gòu)表示為E(x)=W(F(x)+G(x)),上述的殘差塊都是以這種數(shù)學(xué)結(jié)構(gòu)實現(xiàn);其中x為輸入的特征圖,E(x)為殘差塊輸出的特征圖,F(xiàn)(x)的主體為三個卷積層的串聯(lián)結(jié)構(gòu),前兩個卷積層輸出的特征圖數(shù)為殘差塊輸出特征數(shù)目的一半,第三個卷積層輸出的特征圖數(shù)則與殘差塊輸出特征數(shù)目一致,第一個和第三個卷積層的內(nèi)核大小以及步長都為1,第二個卷積層的內(nèi)核和步長大小按需求設(shè)置,其值被視為整個殘差塊的內(nèi)核以及步長值,并且前兩個卷積層都在輸出后緊接著使用批標(biāo)準(zhǔn)化BN以及線性整流函數(shù)作為激活函數(shù),即激活函數(shù)ReLU,第三個卷積層則無;
對于G(x),在殘差塊的步長值為1時,G(x)=x,在殘差塊的步長值非1時,G(x)為一個內(nèi)核大小為1的卷積層,并且其步長與殘差塊的步長保持一致,W(x)則是批標(biāo)準(zhǔn)化以及激活函數(shù)ReLU的串聯(lián)結(jié)構(gòu);
在上述的卷積層中,所使用的padding模式都是“SAME”,并且整個編碼器的殘差塊內(nèi)核大小都設(shè)置為4,步長則為2和1交替,殘差塊需要設(shè)置的參數(shù)還有輸出的特征圖數(shù)目;
4)將提取的特征圖輸入到解碼器,解碼器輸出球坐標(biāo)表示的位置圖;
經(jīng)過上一個步驟,編碼器輸出了維度為8*8*512的特征圖,之后的解碼器則直接串聯(lián)在編碼器之后,并且將輸入的特征圖解碼為256*256*3的位置圖,構(gòu)成解碼器的是7個上采樣塊以及一個轉(zhuǎn)置卷積層構(gòu)成,該上采樣塊采用和殘差塊相似的直連結(jié)構(gòu),其數(shù)學(xué)形式為D(x)=W(S(x)+T(x)),其中S(x)為三個轉(zhuǎn)置卷積層構(gòu)成,第一個和第三個轉(zhuǎn)置卷積層的內(nèi)核和步長值都為1,第二個轉(zhuǎn)置卷積層的內(nèi)核以及步長是待設(shè)定的,其值也被視為該上采樣塊的內(nèi)核以及步長值,除此之外,第一個以及第二個轉(zhuǎn)置卷積層后都緊接著批標(biāo)準(zhǔn)化以及激活函數(shù)ReLU,第三個轉(zhuǎn)置卷積層則無;上述的三個轉(zhuǎn)置卷積層,輸出的特征圖數(shù)目一致,都與上采樣塊輸出的目標(biāo)特征圖數(shù)目一致,并且padding的模式都設(shè)置為“SAME”;
至于T(x),在上采樣塊的步長設(shè)置為1時,T(x)=x,當(dāng)上采樣塊的步長非1時,T(x)的結(jié)構(gòu)中含有一個卷積層,其輸出的特征圖數(shù)目以及步長都與上采樣塊輸出的目標(biāo)特征圖數(shù)目以及步長一致,除此之外,該卷積層之后緊接著一個采用雙線性插值的特征圖縮放模塊,其對每個特征圖進行縮放,縮放后特征圖的尺寸大小與上采樣塊設(shè)置的輸出尺寸一致;
而上采樣塊中的W(x),其結(jié)構(gòu)與殘差中一致,是由批標(biāo)準(zhǔn)化以及ReLU激活函數(shù)串聯(lián)而成的結(jié)構(gòu);
上述的7個上采樣塊在解碼器中需要設(shè)置的參數(shù)有輸出的特征圖尺寸、輸出的特征圖數(shù)目、轉(zhuǎn)置卷積內(nèi)核大小以及步長;7個上采樣塊輸出的特征圖維度依次為8*8*512、16*16*256、32*32*128、64*64*64、128*128*32、256*256*16、256*256*3,而其步長依次設(shè)置為1、2、2、2、2、2、1;在該7個上采樣塊之后還串聯(lián)轉(zhuǎn)置卷積層,設(shè)置其輸出的特征圖數(shù)目為3,內(nèi)核大小為4,步長為1,并且采用Sigmoid函數(shù)作為激活函數(shù);
因此,輸入維度256*256*3的RGB圖像,編碼器以及解碼器就從中提取信息輸出維度為256*256*3的球坐標(biāo)位置圖;
5)將球坐標(biāo)表示的位置圖轉(zhuǎn)換為笛卡爾坐標(biāo)位置圖,根據(jù)轉(zhuǎn)換后的位置圖重建三維人臉。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010114817.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





