[發(fā)明專利]一種基于WGAN模型的可變形卷積核方法在審
| 申請?zhí)枺?/td> | 201711123711.8 | 申請日: | 2017-11-14 |
| 公開(公告)號: | CN107886162A | 公開(公告)日: | 2018-04-06 |
| 發(fā)明(設(shè)計(jì))人: | 周智恒;李立軍;胥靜;朱湘軍;李利蘋;汪壯雄 | 申請(專利權(quán))人: | 華南理工大學(xué);廣州視聲智能股份有限公司;廣州視聲智能科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司44245 | 代理人: | 李斌 |
| 地址: | 511458 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 wgan 模型 變形 卷積 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)領(lǐng)域,具體涉及一種基于WGAN模型的可變形卷積核方法。
背景技術(shù)
生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,簡稱GAN)是由Goodfellow在2014年提出的深度學(xué)習(xí)框架,它基于“博奕論”的思想,構(gòu)造生成器(generator)和判別器(discriminator)兩種模型,前者通過輸入(0,1)的均勻噪聲或高斯隨機(jī)噪聲生成圖像,后者對輸入的圖像進(jìn)行判別,確定是來自數(shù)據(jù)集的圖像還是由生成器產(chǎn)生的圖像。
在傳統(tǒng)的對抗網(wǎng)絡(luò)模型中,對于生成器生成圖像質(zhì)量并沒有統(tǒng)一的評判標(biāo)準(zhǔn),因此,亟待提出一種利用沃瑟斯坦距離作為生成對抗網(wǎng)絡(luò)的評判指標(biāo),從而使整個(gè)模型的訓(xùn)練能夠往正確的方向進(jìn)行,另外利用可變形卷積學(xué)習(xí)圖像特征的方法,提高了整個(gè)網(wǎng)絡(luò)的訓(xùn)練效率。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中的上述缺陷,提供一種基于WGAN模型的可變形卷積核方法。
本發(fā)明的目的可以通過采取如下技術(shù)方案達(dá)到:
一種基于WGAN模型的可變形卷積核方法,所述可變形卷積核方法包括下列步驟:
S1、構(gòu)造原始生成對抗網(wǎng)絡(luò)模型,通過生成器生成圖像輸入至判別器進(jìn)行網(wǎng)絡(luò)訓(xùn)練;
S2、構(gòu)造沃瑟斯坦距離,作為對抗網(wǎng)絡(luò)模型的評判指標(biāo);
在本發(fā)明所涉及到的網(wǎng)絡(luò)模型中,利用沃瑟斯坦距離作為生成對抗網(wǎng)絡(luò)的評判指標(biāo),從而使整個(gè)模型的訓(xùn)練能夠往正確的方向進(jìn)行。
S3、初始化隨機(jī)噪聲,輸入生成器中;
S4、在WGAN模型中利用可變形卷積核對圖像進(jìn)行卷積;
在原始的生成對抗網(wǎng)絡(luò)模型中,卷積核的形狀一般為方形,這限制了神經(jīng)網(wǎng)絡(luò)對圖像特征學(xué)習(xí)的自由度,而在本發(fā)明中,針對這一缺陷,利用網(wǎng)絡(luò)訓(xùn)練對卷積核的形狀進(jìn)行自適應(yīng)地改變,從而能夠以更高的效率學(xué)習(xí)到數(shù)據(jù)集中圖像的特征。
S5、將可變形卷積操作得到的損失函數(shù)輸入生成器進(jìn)行后續(xù)訓(xùn)練。
進(jìn)一步地,所述的步驟S2具體如下:
構(gòu)造多個(gè)卷積核,不同的卷積核,代表著在學(xué)習(xí)的過程中,能夠?qū)W習(xí)到不同的圖像特征。
進(jìn)一步地,所述的步驟S4中在WGAN中利用可變形卷積核對圖像進(jìn)行卷積,具體過程如下:
S41、構(gòu)造多個(gè)不同數(shù)值但大小相同的卷積核;
S42、采用已構(gòu)造的卷積核,分別對生成器生成的多張圖像進(jìn)行卷積,從而得到多張?zhí)卣鲌D。
進(jìn)一步地,所述的步驟S5中,將可變形卷積操作得到的損失函數(shù)輸入生成器進(jìn)行后續(xù)訓(xùn)練。具體過程如下:
S51、對S4中卷積之后的特征圖,輸入判別器進(jìn)行判別;
S52、將可變形卷積操作得到的損失函數(shù)輸入生成器進(jìn)行后續(xù)訓(xùn)練。
S53、將所有損失函數(shù)的均值輸入至生成器中繼續(xù)進(jìn)行訓(xùn)練。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
魯棒性:本發(fā)明根據(jù)可變形卷積的操作過程,設(shè)置構(gòu)造了多個(gè)可變形卷積核,通過在訓(xùn)練過程中動態(tài)地改變卷積核大小的方式,應(yīng)用在以深度卷積神經(jīng)網(wǎng)絡(luò)充當(dāng)生成器與判別器的對抗網(wǎng)絡(luò)模型中,同時(shí)利用沃瑟斯坦距離作為生成對抗網(wǎng)絡(luò)的評判指標(biāo),從而使整個(gè)模型的訓(xùn)練能夠往正確的方向進(jìn)行。
附圖說明
圖1是本發(fā)明中公開的基于WGAN模型的可變形卷積核方法訓(xùn)練流程圖;
圖2是本發(fā)明中對原始卷積核改造成為可變形卷積核的示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例
本實(shí)施例公開了一種基于WGAN模型的可變形卷積核方法,具體包括下列步驟:
步驟S1、構(gòu)造原始生成對抗網(wǎng)絡(luò)模型,生成器通過生成圖像輸入至判別器進(jìn)行網(wǎng)絡(luò)訓(xùn)練。
步驟S2、構(gòu)造沃瑟斯坦距離,作為對抗網(wǎng)絡(luò)模型的評判指標(biāo);
不同的卷積核,體現(xiàn)在矩陣數(shù)值的不同、行列數(shù)的不同。
構(gòu)造多個(gè)卷積核,在處理圖像的過程中,不同的卷積核意味著能夠在網(wǎng)絡(luò)訓(xùn)練的過程中學(xué)習(xí)到生成圖像的不同特征。
在本發(fā)明所涉及到的網(wǎng)絡(luò)模型中,利用沃瑟斯坦距離作為生成對抗網(wǎng)絡(luò)的評判指標(biāo),從而使整個(gè)模型的訓(xùn)練能夠往正確的方向進(jìn)行。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué);廣州視聲智能股份有限公司;廣州視聲智能科技有限公司,未經(jīng)華南理工大學(xué);廣州視聲智能股份有限公司;廣州視聲智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711123711.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:可伸縮物流碼放架
- 下一篇:一種用于膠帶密封的包裝盒
- 一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的WGAN模型方法
- 一種基于WGAN模型的模糊檢測種子集合生成方法及生成器
- 基于半監(jiān)督WGAN-GP的高光譜圖像分類方法
- 一種語音增強(qiáng)處理方法
- 一種基于生成式對抗網(wǎng)絡(luò)的圖像擴(kuò)增方法及系統(tǒng)
- 基于WGAN-GP和U-NET的素描—照片轉(zhuǎn)化方法
- 基于WGAN-GP和U-net改進(jìn)的圖像增強(qiáng)的方法、裝置及存儲介質(zhì)
- 圖像擴(kuò)展方法及裝置
- 基于WGAN-GP的雷達(dá)HRRP數(shù)據(jù)庫構(gòu)建方法
- 一種基于R-WGAN的水泥熟料游離鈣樣本數(shù)據(jù)增強(qiáng)及預(yù)測方法





