[發(fā)明專利]一種基于多視角注意力機(jī)制的灰度圖像自動上色方法有效
| 申請?zhí)枺?/td> | 202110703101.5 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113436094B | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 蔣斌;戴家武;許方鏹 | 申請(專利權(quán))人: | 湖南大學(xué) |
| 主分類號: | G06T5/00 | 分類號: | G06T5/00;G06T11/40;G06N3/04;G06N3/08 |
| 代理公司: | 長沙新裕知識產(chǎn)權(quán)代理有限公司 43210 | 代理人: | 梁小林 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 視角 注意力 機(jī)制 灰度 圖像 自動 上色 方法 | ||
本發(fā)明涉及一種基于多視角注意力機(jī)制的灰度圖像自動上色方法,屬于灰度圖像上色技術(shù)領(lǐng)域。通過步驟1,數(shù)據(jù)收集與處理,步驟2,模型構(gòu)建,對特征圖F進(jìn)行全局平均池化,將特征圖F進(jìn)行通道池化,將輸入特征圖F不做任何變換成為Fout_3;有益效果在于,采用多視角注意力機(jī)制,多視角注意力模塊能夠讓上色模型自適應(yīng)地獲取不同視角、不同尺度的注意力信息,更好地支持模型重建彩色圖像。能夠自適應(yīng)地學(xué)習(xí)不同視角的特征信息,提高了編碼?解碼結(jié)構(gòu)的特征提取能力,強(qiáng)化了圖像內(nèi)語義信息和上下文信息的建模。通過將該模塊嵌入編碼?解碼結(jié)構(gòu),在保證上色結(jié)果圖像質(zhì)量的同時(shí)提高了顏色的飽和度和多樣性。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于多視角注意力機(jī)制的灰度圖像自動上色方法,屬于灰度圖像上色技術(shù)領(lǐng)域。
背景技術(shù)
灰度圖像上色是當(dāng)前圖像處理領(lǐng)域的研究熱點(diǎn),該項(xiàng)技術(shù)廣泛地應(yīng)用于影視處理、廣告制作以及藝術(shù)創(chuàng)作。通過圖像上色技術(shù)能夠修復(fù)老照片,給黑白電影賦予生動的色彩,同時(shí)可以為動漫、卡通人物進(jìn)行輔助上色,降低藝術(shù)創(chuàng)作的復(fù)雜度。由此可見,灰度圖像上色具有較大的使用價(jià)值和趣味性。傳統(tǒng)的灰度圖像上色方法往往需要人為參與,其中一種需要用戶給定一張參考圖像,上色模型從參考圖像中遷移適合的顏色,而合適的參考圖像往往難以獲取,當(dāng)參考圖像和待上色的灰度圖像目標(biāo)、背景相差較大時(shí)難以得到生動的上色效果。第二種則需要用戶人為地在灰度圖像上進(jìn)行顏色涂鴉,這要求用戶需要一定的專業(yè)知識來選擇合適的顏色,而且在上色過程中需要進(jìn)行較大范圍的顏色涂鴉來保證上色效果。近年來,由于深度學(xué)習(xí)技術(shù)興起以及獲取大規(guī)模圖像數(shù)據(jù)集簡易性,出現(xiàn)了一大批基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和生成對抗網(wǎng)絡(luò)(GAN)的灰度圖像自動上色方法。在目前的灰度圖像自動上色模型中,以CNN為基礎(chǔ)的編碼器-解碼器結(jié)構(gòu)能夠基于大規(guī)模數(shù)據(jù)集自動學(xué)習(xí)從灰度圖像到彩色圖像的映射,但往往得到的上色圖像飽和度不夠且多樣性低,原因在于這種編碼解碼的方式只是逐像素學(xué)習(xí)映射關(guān)系,難以對圖像中的語義和上下文信息有效建模。在以GAN為基礎(chǔ)的生成式上色模型中,通過生成器和判別器的對抗訓(xùn)練來讓生成器根據(jù)輸入的灰度圖像,近似地模擬真實(shí)彩色圖像的分布,該種方法能夠在一定程度上提高上色結(jié)果的多樣性,但是生成的圖像質(zhì)量不佳,且GAN模型訓(xùn)練不穩(wěn)定,難以收斂。
綜上所述,當(dāng)前的基于深度學(xué)習(xí)的灰度圖像自動上色方法無法保證上色結(jié)果的多樣性和圖像質(zhì)量,限制了該項(xiàng)技術(shù)的應(yīng)用場景。為了保證灰度圖像自動上色的結(jié)果生動,提高生成彩色圖像的質(zhì)量,需要針對現(xiàn)有的模型方法加以改進(jìn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于多視角注意力機(jī)制的灰度圖像自動上色方法,從而克服現(xiàn)有技術(shù)中的不足。
本發(fā)明的技術(shù)方案在于,包括以下步驟:
步驟1,數(shù)據(jù)收集與處理,采用開源的大規(guī)模圖像數(shù)據(jù)集ImageNet,在獲得數(shù)據(jù)集后對圖像進(jìn)行中心裁剪,得到分辨率為256*256的訓(xùn)練圖像,隨后對圖像進(jìn)行顏色空間變換,從RGB顏色空間變換到CIE Lab空間,對訓(xùn)練集中的每一張圖像,以其L通道的數(shù)據(jù)作為灰度輸入,ab通道作為顏色標(biāo)簽;
步驟2,模型構(gòu)建,基于編碼-解碼架構(gòu)設(shè)計(jì)全卷積的自動上色模型;采用多視角注意力機(jī)制,通過多視角注意力模塊能夠讓上色模型自適應(yīng)地獲取不同視角、不同尺度的注意力信息,更好地支持模型重建彩色圖像;
多視角注意力機(jī)制包括以下方法:多視角注意力模塊接受一個(gè)尺寸為RH×W×C的特征圖F作為輸入,隨后該特征圖進(jìn)入三個(gè)分支;
分支1:對特征圖F進(jìn)行全局平均池化,將其轉(zhuǎn)換為F11,尺寸為R1×1×C;將特征圖F11輸入到兩層連續(xù)的全連接層進(jìn)行仿射變換,兩層全連接層之間有一層ReLU激活函數(shù),第二層全連接層后有一層Sigmoid,最終得到特征圖Fout_1,其尺寸為R1×1×C,該過程用公式(1)、(2)進(jìn)行規(guī)約;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南大學(xué),未經(jīng)湖南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110703101.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種機(jī)制蛋的制造方法
- 手機(jī)制式的校準(zhǔn)方法、系統(tǒng)及手機(jī)檢測設(shè)備
- 一種考慮激勵(lì)機(jī)制電量電價(jià)彈性矩陣的耗電量估測方法
- 選擇區(qū)塊鏈共識機(jī)制的方法、裝置以及共識節(jié)點(diǎn)
- 一種復(fù)合改性機(jī)制砂及其制備方法
- 一種存儲設(shè)備糾錯(cuò)方法及糾錯(cuò)裝置
- 區(qū)塊鏈中共識機(jī)制的處理方法、裝置和電子設(shè)備
- 一種建筑用機(jī)制砂整形裝置
- 通信方法、通信裝置及存儲介質(zhì)
- 一種網(wǎng)絡(luò)預(yù)約出租車市場準(zhǔn)入機(jī)制的優(yōu)化方法及系統(tǒng)





