[發明專利]一種基于多視角注意力機制的灰度圖像自動上色方法有效
| 申請號: | 202110703101.5 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113436094B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 蔣斌;戴家武;許方鏹 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06T5/00 | 分類號: | G06T5/00;G06T11/40;G06N3/04;G06N3/08 |
| 代理公司: | 長沙新裕知識產權代理有限公司 43210 | 代理人: | 梁小林 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視角 注意力 機制 灰度 圖像 自動 上色 方法 | ||
1.一種基于多視角注意力機制的灰度圖像自動上色方法,其特征在于包括以下步驟:
步驟1,數據收集與處理,采用開源的大規模圖像數據集ImageNet,在獲得數據集后對圖像進行中心裁剪,得到分辨率為256*256的訓練圖像,隨后對圖像進行顏色空間變換,從RGB顏色空間變換到CIE Lab空間,對訓練集中的每一張圖像,以其L通道的數據作為灰度輸入,ab通道作為顏色標簽;
步驟2,模型構建,基于編碼-解碼架構設計全卷積的自動上色模型;采用多視角注意力機制,通過多視角注意力模塊能夠讓上色模型自適應地獲取不同視角、不同尺度的注意力信息,更好地支持模型重建彩色圖像;
多視角注意力機制包括以下方法:多視角注意力模塊接受一個尺寸為RH×W×C的特征圖F作為輸入,隨后該特征圖進入三個分支;
分支1:對特征圖F進行全局平均池化,將其轉換為F11,尺寸為R1×1×C;將特征圖F11輸入到兩層連續的全連接層進行仿射變換,兩層全連接層之間有一層ReLU激活函數,第二層全連接層后有一層Sigmoid,最終得到特征圖Fout_1,其尺寸為R1×1×C,該過程用公式(1)、(2)進行規約;
F11=avgpool(F) (1)
Fout_1=σ(fl2(R(fl1(F11)))) (2)
其中avgpool代表全局平均池化,σ代表Sigmiod層,fl1和fl2分別代表兩層全連接層,R代表激活函數ReLU層;
分支2:將特征圖F進行通道池化,得到特征圖F21,其尺寸為RH×W×2;采用最大池化,將F21按照2k倍下采樣,k=1,2,3,..,n-1;得到不同尺度的特征圖V1,V2,...,Vn-1,特征圖Vk的尺寸為隨后對于每一個特征圖Vk,經過一個3x3卷積和一層Sigmoid層之后進行k倍上采樣,恢復特征圖尺寸為RH×W×1,得到n-1個特征圖輸出A1,A2,...,An-1;最后將每張特征圖分別乘上一個可學習參數λk得到第二個分支的特征圖輸出Fout_2,尺寸為RH×W×1;
該分支數學規約如式(3)至(6)所示:
F21=localpool(F2) (3)
Vk=mp(F21) (4)
Ak=up(σ(conv(Vk))) (5)
其中localpool代表通道池化,mp代表空間上的最大池化,up代表上采樣,conv代表3×3卷積,k表示特征圖下采樣的倍數,是一個1到n的整數,n表示最大的下采樣倍數,即任意符合圖像分辨率下采樣倍數的整數;
分支3:將輸入特征圖F不做任何變換成為Fout_3;
最后將三個分支的輸出通過“廣播”機制進行維度復制,得到了三張尺寸均為RH×W×C的特征圖,最后進行Hadmard乘積得到最終的輸出Fout,尺寸為RH×W×C,并傳入下一層;特征圖聚合操作的數學規約如式(7)所示:
其中BroadCast表示張量的“廣播”操作,即先對特征圖進行維度拓展。
2.根據權利要求1所述的一種基于多視角注意力機制的灰度圖像自動上色方法,其特征在于,所述步驟2中,基于編碼-解碼架構設計全卷積的自動上色模型,采用了Huber-loss作為損失函數,其數學規約如式(8):
其中x和y分別表示訓練數據對中的彩色原圖以及模型重建后的彩色圖像對應位置的像素值,δ是一個超參數,其值取1,即δ=1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110703101.5/1.html,轉載請聲明來源鉆瓜專利網。





