[發(fā)明專利]基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法在審
| 申請?zhí)枺?/td> | 202211247125.5 | 申請日: | 2022-10-12 |
| 公開(公告)號: | CN115546338A | 公開(公告)日: | 2022-12-30 |
| 發(fā)明(設(shè)計)人: | 薛濤;馬鵬森 | 申請(專利權(quán))人: | 西安工程大學(xué) |
| 主分類號: | G06T11/00 | 分類號: | G06T11/00;G06T15/00;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 王丹 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 transformer 生成 對抗 網(wǎng)絡(luò) 圖像 著色 方法 | ||
1.基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法,其特征在于,該方法按照以下步驟實施,
步驟1、構(gòu)建基于生成對抗網(wǎng)絡(luò)的圖像著色模型,所述圖像著色模型包括彩色圖像生成器和鑒別器;所述彩色圖像生成器用于生成彩色圖像,所述鑒別器用于判斷輸入的圖像是真實彩色圖像或偽彩色圖像;
步驟2、將灰色圖像輸入所述圖像著色模型的彩色圖像生成器生成偽彩色圖像;
步驟3、分別更新鑒別器以及彩色圖像生成器的參數(shù):
步驟3.1:首先固定彩色圖像生成器的參數(shù),將所述偽彩色圖像以及所述灰色圖像對應(yīng)的真實彩色圖像依次交替輸入鑒別器,然后根據(jù)損失函數(shù)計算所述灰色圖像對應(yīng)的真實彩色圖像與標簽值為1之間的損失,以及根據(jù)損失函數(shù)計算所述灰色圖像生成的偽彩色圖像與標簽值為0之間的損失,最后利用反向傳播算法,更新所述鑒別器的參數(shù);其中標簽值為1代表的是真實的圖像,標簽值為0代表的是生成的偽彩色圖像;
步驟3.2:固定鑒別器的參數(shù),根據(jù)損失函數(shù)計算生成的偽彩色圖像與標簽值為1之間的損失,最后利用反向傳播算法,更新所述彩色圖像生成器的參數(shù);
步驟3.3:不斷循環(huán)步驟3.1和步驟3.2更新鑒別器和彩色圖像生成器參數(shù)的過程,直至損失值收斂,彩色圖像生成器生成效果不錯的偽彩色圖像,即獲得了優(yōu)化后圖像著色模型;
步驟4、利用優(yōu)化后的圖像著色模型就直接對灰色圖像進行著色。
2.根據(jù)權(quán)利要求1所述的基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法,其特征在于,步驟1中,所述彩色圖像生成器中包含多個MWin-transformer模塊,所述Mwin-transformer模塊的功能是提取和重建圖像的特征,輸出3通道有效彩色圖像:所述Mwin-transformer模塊由三個核心部分組成:基于窗口的多頭自注意力機制、層歸一化操作LN和局部增強前向傳播網(wǎng)絡(luò)LeFF。
3.根據(jù)權(quán)利要求2所述的基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法,其特征在于,所述彩色圖像生成器生成偽彩色圖像的流程如下所示:
X′=Embedded Tokens(Xin)
X″=W-MSA(LN(X))+X′
Xout=LeFF(LN(X″))+X″
其中,Xin表示輸入,為灰色圖像或偽彩色圖像;
Embedding Tokens表示將Xin轉(zhuǎn)換成向量;
X′表示將Xin輸入進Embedding Tokens得到的向量輸出;
然后將向量X′進行層歸一化后的結(jié)果LN(X′)輸入進基于窗口的多頭自注意力機制W-MSA得到提取了特征信息的向量,再與X′相加得到匯聚了更多特征信息的向量X″;X″表示將X′輸入進基于窗口的多頭自注意力機制以及層歸一化操作得到的輸出;
繼續(xù)將向量X″進行層歸一化,將歸一化后的LN(X″)輸入進局部增強前向傳播網(wǎng)絡(luò)得到提取了更多局部特征信息的向量,再與X″相加得到匯聚了更多局部特征信息的向量Xout,Xout表示將X″輸入進局部增強前向傳播網(wǎng)絡(luò)LeFF以及層歸一化操作得到的輸出。
4.根據(jù)權(quán)利要求3所述的基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法,其特征在于,所述層歸一化操作的計算過程為:
其中,LN層的作用對象是X代表向量,μ以及δ分別代表每個樣本的均值和方差,和為仿射學(xué)習參數(shù),dk是隱藏維度,表示該數(shù)是一個k維的向量。
5.根據(jù)權(quán)利要求3所述的基于Transformer與生成對抗網(wǎng)絡(luò)的圖像著色方法,其特征在于,所述基于窗口的多頭自注意力機制如下:
將偽彩色圖像分成多個窗口,然后在這些不同的窗口中執(zhí)行自注意力計算,由于一個窗口中的patch數(shù)遠小于一幅圖片中的所有小塊數(shù),并且窗口的數(shù)目保持不變,所以基于窗口的多頭自注意力機制的計算復(fù)雜度與圖像大小便由平方關(guān)系變成了成線性關(guān)系,大大降低了模型的計算復(fù)雜度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安工程大學(xué),未經(jīng)西安工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211247125.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于Transformer+LSTM神經(jīng)網(wǎng)絡(luò)模型的商品銷量預(yù)測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯(lián)神經(jīng)網(wǎng)絡(luò)模型壓縮算法
- 點云分割方法、系統(tǒng)、介質(zhì)、計算機設(shè)備、終端及應(yīng)用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經(jīng)網(wǎng)絡(luò)的小分子表示學(xué)習方法
- 基于U-Transformer多層次特征重構(gòu)的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





