[發(fā)明專利]一種抗網(wǎng)格效應(yīng)的人臉深度預(yù)測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810333873.2 | 申請(qǐng)日: | 2018-04-13 |
| 公開(公告)號(hào): | CN108629291B | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計(jì))人: | 王興政;章書豪;王好謙;方璐;戴瓊海 | 申請(qǐng)(專利權(quán))人: | 深圳市未來(lái)媒體技術(shù)研究院;清華大學(xué)深圳研究生院 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06T7/50;G06N3/04 |
| 代理公司: | 深圳新創(chuàng)友知識(shí)產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 劉莉 |
| 地址: | 518000 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)格 效應(yīng) 深度 預(yù)測(cè) 方法 | ||
提供一種抗網(wǎng)格效應(yīng)的人臉深度預(yù)測(cè)方法,包括步驟:S1:搭建抗網(wǎng)格效應(yīng)的卷積神經(jīng)網(wǎng)絡(luò),包括多個(gè)空洞卷積,每個(gè)空洞卷積串聯(lián)連接的規(guī)范化操作和激勵(lì)操作,以及多個(gè)像素反卷積;S2:建立人臉數(shù)據(jù)集,其包括訓(xùn)練集和測(cè)試集,并設(shè)置卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù);S3:對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)重初始化,將訓(xùn)練集輸入卷積神經(jīng)網(wǎng)絡(luò)中,以最小化代價(jià)函數(shù)為目標(biāo)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)形成人臉圖像深度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型;S4:將測(cè)試集輸入人臉圖像深度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型,輸出能夠反映人臉圖像深度信息的圖像。本發(fā)明的人臉深度預(yù)測(cè)方法,能夠解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)格效應(yīng),擁有較大的感受域,能夠極大地提升人臉深度預(yù)測(cè)的準(zhǔn)確性,有利于進(jìn)行人臉的三維重建研究。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺與數(shù)字圖像處理領(lǐng)域,特別涉及一種抗網(wǎng)格效應(yīng)的人臉深度預(yù)測(cè)方法
背景技術(shù)
人臉深度預(yù)測(cè),是計(jì)算機(jī)視覺領(lǐng)域一個(gè)新穎且富有挑戰(zhàn)性的問題。對(duì)人臉進(jìn)行深度預(yù)測(cè)是理解整個(gè)人臉幾何關(guān)系的重要組成部分。相應(yīng)的,這樣的關(guān)系能夠很好地反映人臉上的器官以及整個(gè)人面部的環(huán)境,如果能得到較好的人臉面部深度信息,將會(huì)對(duì)人臉識(shí)別問題提供非常大的幫助,同樣地,也有助于構(gòu)建人臉的3D模型,有利于解決有關(guān)人臉的三維重建問題。但是從一張人臉的RGB圖片中預(yù)測(cè)出整個(gè)人臉的深度信息本身是一個(gè)具有病態(tài)性質(zhì)的問題,因?yàn)樵趯GB圖像的顏色信息映射成深度值的過程中面臨諸多的不確定性。為了解決這一問題,一些方法是通過馬爾科夫隨場(chǎng)來(lái)獲得深度信息,通過條件隨機(jī)場(chǎng)來(lái)正則化深度圖,但是這些方法依賴于圖像的水平校準(zhǔn),因而對(duì)訓(xùn)練環(huán)境比較敏感。
近年來(lái),隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的提出,許多計(jì)算機(jī)視覺與數(shù)字圖像處理領(lǐng)域的問題通過使用CNN都取得了非常好的效果。目前,一些基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度預(yù)測(cè)的方法被提出,取得了一些較好的結(jié)果,但是也存在著一些問題。比如,隨著卷積層的不斷增加會(huì)面臨梯度消失從而訓(xùn)練不下去的問題;深層網(wǎng)絡(luò)的感受野比較小,訓(xùn)練出的深度圖精度不是很高,圖像較為粗糙。針對(duì)深層網(wǎng)絡(luò)感受野比較小的問題,最近空洞卷積的提出證明了在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練中加入空洞卷積可以擴(kuò)大卷積神經(jīng)網(wǎng)絡(luò)的感受野從而提升精度。但是空洞卷積存在普遍的網(wǎng)格問題,因?yàn)榭斩淳矸e雖然能夠擴(kuò)大感受域,但是其是在卷積核中填充0,形成網(wǎng)格效應(yīng),對(duì)于空洞率為2的空洞卷積而言,大約會(huì)損失75%的信息,隨著空洞率的不斷增大,局部信息會(huì)損失。同樣的情況也存在于進(jìn)行上采樣操作的反卷積當(dāng)中,在進(jìn)行上采樣的過程中由于臨近像素之間沒有直接聯(lián)系,產(chǎn)生網(wǎng)格效應(yīng),從而影響生成的深度圖精度。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供一種抗網(wǎng)格效應(yīng)的人臉深度預(yù)測(cè)方法。
本發(fā)明的技術(shù)問題通過以下的技術(shù)方案予以解決:
一種抗網(wǎng)格效應(yīng)的人臉深度預(yù)測(cè)方法,包括如下步驟:
S1:搭建抗網(wǎng)格效應(yīng)的卷積神經(jīng)網(wǎng)絡(luò),所述卷積神經(jīng)網(wǎng)絡(luò)包括編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),其中編碼網(wǎng)絡(luò)包括多個(gè)空洞卷積,以及每個(gè)空洞卷積串聯(lián)連接的規(guī)范化操作和激勵(lì)操作,所述解碼網(wǎng)絡(luò)包括多個(gè)像素反卷積;
S2:建立所需的人臉數(shù)據(jù)集,所述人臉數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集,并且設(shè)置所述卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù);
S3:對(duì)所述卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行權(quán)重初始化,將所述訓(xùn)練集輸入初始化后的卷積神經(jīng)網(wǎng)絡(luò)中,根據(jù)所述卷積神經(jīng)網(wǎng)絡(luò)及其初始化的權(quán)重值,以最小化代價(jià)函數(shù)為目標(biāo)來(lái)訓(xùn)練所述神經(jīng)網(wǎng)絡(luò)形成人臉圖像深度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型;
S4:將所述測(cè)試集輸入到所述人臉圖像深度預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)模型,輸出能夠反映人臉圖像深度信息的圖像。
優(yōu)選地,所述編碼網(wǎng)絡(luò)中的數(shù)個(gè)空洞卷積依次串聯(lián)連接,每個(gè)空洞卷積的輸出端依次串聯(lián)所述規(guī)范化操作和所述激勵(lì)操作,在最后一個(gè)空洞卷積后依次串聯(lián)多個(gè)像素反卷積;所述規(guī)范化操作采用Batch Normalization,所述激勵(lì)操作采用Leaky Relu函數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市未來(lái)媒體技術(shù)研究院;清華大學(xué)深圳研究生院,未經(jīng)深圳市未來(lái)媒體技術(shù)研究院;清華大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810333873.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 通過監(jiān)視和分發(fā)網(wǎng)格活動(dòng)促進(jìn)整個(gè)網(wǎng)格環(huán)境管理
- 網(wǎng)格
- 點(diǎn)云網(wǎng)格簡(jiǎn)化系統(tǒng)及方法
- 網(wǎng)格
- CT穿刺引導(dǎo)定位膜
- CT穿刺引導(dǎo)定位膜
- 虛擬現(xiàn)實(shí)三維水體渲染中水體網(wǎng)格的處理方法
- 一種環(huán)境監(jiān)管網(wǎng)格化系統(tǒng)、方法及電子設(shè)備
- 用于海洋結(jié)構(gòu)物與水面網(wǎng)格重疊部分的重建方法
- 一種道具吸附的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





