[發明專利]一種基于監督深度網絡學習的圖像重定向方法在審
| 申請號: | 202010799181.4 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN111915489A | 公開(公告)日: | 2020-11-10 |
| 發明(設計)人: | 梅怡靜;潘剛;孫迪 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06T3/40 | 分類號: | G06T3/40;G06N3/08;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 深度 網絡 學習 圖像 定向 方法 | ||
1.一種基于監督深度網絡學習的圖像重定向方法,大致步驟如下描述:
步驟1:建立新的數據集,該步驟可以分為五小步:
(i)確定原始輸入圖像X。將收集的原始圖像O進行歸一化,將其作為之后所有操作的輸入:
O=(o1,o2,o3,...,on),on表示原始數據集O中第n張圖像。
X=(x1,x2,x3,...,xn),xn表示歸一化后的數據集X中第n張圖像。
(ii)執行重定向操作ω。實現k種較為有代表性的重定向算法,并使用實現的重定向方法對原始輸入圖像X進行相同的重定向操作ω。將對將原始圖像X中第i張圖像xi分別按所實現的k種重定向方法,執行重定向操作ω后的結果圖r1,r2,r3,...,rk,和原始圖像xi一起分為一組Gi,即:
R=(R1,R2,R3,...,Rn),Rn表示原始數據集X中第n張圖像執行操作ω后的結果。
Ri=(r1,r2,r3,...,rk),Ri表示圖像xi執行操作ω后的結果。
G=(G1,G2,G3,...,Gn),Gn表示數據集X中第n張圖像與其執行ω后的結果組成的數據組。
Gi=(xi,Ri),Gi表示圖像xi對應的數據組。
(iii)為數據組集G中重定向后的圖像R評估分數。將IRQA算法作為重定向圖像的評估標準。使用一個較為成熟的IRQA算法,根據每組圖像Gi中原始輸入圖像xi對其中的各種重定向圖像Ri進行評分。
Score=(Score1,Score2,Score3,...,Scoren),
Scorei=IRQA(Gi(xi),Gi(Ri))=(s1,s2,s3,...,sk),
其中,Scorei為原始數據集X中第i張圖像對應的數據組經IRQA算法生成的分數,Gi(xi)為第i組圖像中的原始圖像,Gi(Ri)為第i組圖像中的重定向結果圖,s1,s2,s3,...,sk分別為該組中重定向圖像r1,r2,r3,...,rk對應的分數。
(iv)求分數集Score中各組最高評分對應的圖像。我們將各組分數Scorei中評估分數最高的重定向結果圖像視為該組中ground truth,并將ground truth集和相應的原圖X一起形成成對輸入圖像P在之后的訓練過程中使用。
Max{·}是求得最大值的函數。
是求得的ground truth集中第n張圖像。
Ri(rj)是第i組圖像對應的Ri結果圖像中的第j張圖像。
P=(p1,p2,p3,...,pn),pn是求得的數據對集中第n對圖像。
pi是數據對集中第i對圖像。
(v)對生成的圖像對集P進行訓練集T和測試集V的劃分。其中,
步驟2:構建網絡模型其中,是模型中的生成器(Generator),是模型中的判別器(Discriminator)。若使用E表示的是網絡中的編碼器部分,D表示的是網絡中的解碼器部分,S表示網絡中跳線連接,R表示為殘差塊,則生成器模型可公式化為
對于編碼器E,它共包含25個卷積層,分為5個卷積塊φ,即N為中卷積塊E的數量。對于第一個卷積塊φ1,它有6層卷積,分別為:kernel size為3×3,且stride為1×1的卷積層C_3_1;rate為2的空洞卷積層A_2;rate為3的空洞卷積層A_3;rate為4的空洞卷積層A_4;kernel size為1×1,且stride為1×1的卷積層C_1_1;kernel size為3×3,且stride為2×2的卷積層C_3_2。故此,φ1可表示為:
φ1=(C_3_1,A_2,A_3,A_4,C_1_1,C_3_2)。
類似地,φ2=(C_3_1,A_2,A_3,A_4,C_1_1,C_3_2),φ3=(C_3_1,A_2,A_3,C_1_1,C_3_2),φ4=(C_3_1,A_2,A_3,C_1_1,C_3_2),φ5=(C_3_1,A_2,C_3_2)。
對于解碼器D,它和編碼器E對稱,共有25個反卷積層,6個反卷積塊即N為D中卷積塊的數量。不同于E中使用的kemel size為3×3,且stride為2×2的卷積層C_3_2,D與之對應的層使用的是kernel size為3×3的resize-convolution層RC_3。所以,可表示為:
類似地,
對于跳線連接S,我們將編碼器E中卷積塊φ經過C_3_1卷積層后的特征圖,和解碼器D中卷積塊經過C_3_1卷積層前的特征圖,進行連接,即:
N為E中卷積塊的數量
最后,對于殘差塊R,共引入的2部分殘差塊,并分別將其放在編碼器E和解碼器D之間,和解碼器D之后。
判別器經過了7層卷積層,可類似地定義為:
步驟3:設計損失函數,用以衡量生成的重定向圖像Y和ground truth集中對應圖像之間的差異。
步驟4:利用Nvidia GPU,分批次(batch)地使用新創建的訓練集T,對構建的網絡模型M進行訓練,并通過誤差反向傳播算法(BP)對模型進行不斷的優化。
步驟5:使用訓練過程中保存的模型m,對新創建的測試集V中的圖像進行測試。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010799181.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種面料前處理工藝
- 下一篇:裝配式建筑成型墻板機





