[發(fā)明專利]一種基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110209512.9 | 申請(qǐng)日: | 2021-02-24 |
| 公開(kāi)(公告)號(hào): | CN113111906B | 公開(kāi)(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 楊昌源;陳培;李如詩(shī);李澤健;孫凌云 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06V10/764 | 分類號(hào): | G06V10/764;G06V10/46;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 訓(xùn)練 條件 生成 對(duì)抗 網(wǎng)絡(luò) 模型 方法 | ||
1.一種基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法,其特征在于,包括以下步驟:
(1)基于條件生成對(duì)抗網(wǎng)絡(luò)架構(gòu)構(gòu)建圖像翻譯模型,包括:
生成器G和判別器D;記為一張訓(xùn)練圖像,為所述訓(xùn)練圖像對(duì)應(yīng)的語(yǔ)義標(biāo)注圖,為隨機(jī)噪聲;其中表示語(yǔ)義標(biāo)注圖中的語(yǔ)義標(biāo)簽集合,W和H分別表示圖像的寬和高,表示實(shí)數(shù);生成器G采用殘差網(wǎng)絡(luò)結(jié)構(gòu),以語(yǔ)義標(biāo)注圖和隨機(jī)噪聲成對(duì)作為輸入生成圖像判別器采用多子塊判別器結(jié)構(gòu),用于區(qū)分和x中子塊的區(qū)別;所述圖像翻譯模型采用多尺度結(jié)構(gòu),所述結(jié)構(gòu)包括N個(gè)生成器{G0,…,GN-1}和其對(duì)應(yīng)的判別器{D0,…,DN-1};不同尺度的生成器Gn和判別器Dn具有相同的網(wǎng)絡(luò)結(jié)構(gòu);
(2)選取一張圖像作為訓(xùn)練圖像,并對(duì)所述圖像進(jìn)行語(yǔ)義標(biāo)注獲得語(yǔ)義標(biāo)注圖,得到一對(duì)“訓(xùn)練圖像-語(yǔ)義標(biāo)注圖”;
(3)使用步驟(2)中獲得的一對(duì)“訓(xùn)練圖像-語(yǔ)義標(biāo)注圖”,訓(xùn)練步驟(1)構(gòu)建的圖像翻譯模型,在每一輪訓(xùn)練過(guò)程中均對(duì)訓(xùn)練圖像和語(yǔ)義標(biāo)注圖進(jìn)行相同的圖像翻轉(zhuǎn)和仿射變換操作;訓(xùn)練時(shí)采用混合訓(xùn)練機(jī)制,即第n個(gè)尺度的生成器Gn輸入的圖像,采用訓(xùn)練圖像的下采樣圖像xn+1或者生成器Gn+1輸出的生成圖像的上采樣結(jié)果以概率p控制訓(xùn)練Gn時(shí),輸入xn+1或的概率,且設(shè)p值隨著訓(xùn)練次數(shù)的增加而減小,p值的計(jì)算方法為:
其中,e代表訓(xùn)練輪數(shù),μ為一個(gè)超參數(shù);
最終,得到一個(gè)基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型。
2.如權(quán)利要求1所述的基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法,其特征在于,訓(xùn)練圖像翻譯模型使用的損失函數(shù)為:
其中,對(duì)抗損失,為重構(gòu)損失,為特征匹配損失,為感知損失權(quán)重λrec為重構(gòu)損失權(quán)重,λfea為特征匹配損失權(quán)重,λvgg為感知損失權(quán)重。
3.如權(quán)利要求2所述的基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法,其特征在于,訓(xùn)練圖像翻譯模型的對(duì)抗損失使用WGAN-GP損失:
其中,表示在第n個(gè)尺度對(duì)噪聲和語(yǔ)義標(biāo)注圖(z,s)求期望;Dn是第n個(gè)尺度的判別器,所述判別器輸出的標(biāo)量值表示輸入圖像的真假程度;Gn是第n個(gè)尺度的生成器,表示前一個(gè)尺度的生成器Gn+1生成的圖像的上采樣結(jié)果,因此為第n個(gè)尺度上的生成圖像;而則表示在第n個(gè)尺度的訓(xùn)練樣本上求期望;λGP為梯度懲罰項(xiàng)的權(quán)重,為梯度算子,表示Dn在生成圖像上的梯度。
4.如權(quán)利要求2所述的基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法,其特征在于,訓(xùn)練圖像翻譯模型中使用重構(gòu)損失鼓勵(lì)生成器從固定的噪聲和語(yǔ)義標(biāo)注圖生成與真實(shí)圖像一致的圖像:
其中,為第(n+1)尺度生成的重構(gòu)圖像,在第n尺度中,重構(gòu)圖像的計(jì)算方式為:
其中,當(dāng)n=N-1時(shí),生成器根據(jù)一個(gè)事先給定的噪聲z*和s0生成。
5.如權(quán)利要求2所述的基于單對(duì)圖像訓(xùn)練的條件生成對(duì)抗網(wǎng)絡(luò)模型的方法,其特征在于,訓(xùn)練圖像翻譯模型中使用特征匹配損失迫使生成器在不同分辨率上生成自然的特征:
其中,T表示判別器Dn是一個(gè)有T個(gè)非線性輸出層的網(wǎng)絡(luò),i為第i層的非線性層,為判別器Dn對(duì)真實(shí)樣本的判別結(jié)果,為判別器Dn對(duì)生成樣本的判別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110209512.9/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)
- 限制條件解決方法、限制條件解決裝置、以及限制條件解決系統(tǒng)
- 制造條件設(shè)定系統(tǒng)及制造條件設(shè)定方法
- 成形條件確定方法及成形條件確定系統(tǒng)
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 攝影條件設(shè)定設(shè)備、攝影條件設(shè)定方法和攝影條件設(shè)定程序
- 生理?xiàng)l件監(jiān)視系統(tǒng)、生理?xiàng)l件傳感器和生理?xiàng)l件儀表
- 成形條件設(shè)定裝置、成形條件設(shè)定方法及成形條件設(shè)定畫面
- 條件訪問(wèn)設(shè)備
- 用于條件切換的裝置、方法、介質(zhì)和系統(tǒng)
- 基于條件分布的條件生成對(duì)抗網(wǎng)絡(luò)





