[發明專利]一種基于目標優化的語義圖像修復方法有效
| 申請號: | 201910341570.X | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110097110B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 郭煒強;徐紹棟;張宇;鄭波 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 目標 優化 語義 圖像 修復 方法 | ||
1.一種基于目標優化的語義圖像修復方法,其特征在于:該方法是以網絡結構優化和修復過程優化為主要目標,在網絡結構優化方面,通過移除Context-Encoder中的通道連接層、添加并聯空洞卷積層和設置符合人類感官層次的損失函數的方式,使整個網絡在盡量捕獲更多圖像語義特征的同時保留其空間關系,在修復過程優化方面,通過圖像語義分割網絡捕獲待修復圖像中的特定目標,在利用泛化模型對整張圖像進行修復的同時能夠針對捕獲到的目標進行修復優化操作,從而使修復結果具備更高的可靠性和準確性;其包括以下步驟:
1)通過線性插值對輸入圖像和掩膜進行預處理,使所有圖像滿足網絡輸入要求;
2)將輸入圖像與掩膜相結合,獲得缺失圖像;
3)對缺失圖像進行第一次修復操作,獲取修復結果;其中,第一次修復操作通過改進的Context-Encoder結構進行,改進的具體方式是:將編碼器中間三層普通卷積操作改為并聯空洞卷積,并聯空洞卷積設置不同的步長,能夠捕獲到不同層次的語義特征;
4)利用語義分割網絡對第一次修復結果進行修復,獲取圖像中的特定目標;其中,特定目標獲取操作通過語義分割網絡DeepLabV2進行,分割結果包含圖像中不同目標所在的位置及區域,目標的設定需要在模型訓練的時候進行指定;
5)分離圖像中的特定目標,使用特定網絡進行修復,獲取第二次修復結果;其中,分離操作通過像素點級的切割進行,修復操作通過使用改進的Context-Encoder結構進行,模型訓練過程中使用的數據集為與特定目標對應的同類數據集;其中,改進的Context-Encoder結構的具體方式是:將編碼器中間三層普通卷積操作改為并聯空洞卷積,并聯空洞卷積設置不同的步長,能夠捕獲到不同層次的語義特征;
6)將第一次修復結果和第二次修復結果在目標區域的位置進行融合,得到最終修復結果;其中,融合操作具體實現方式是利用特定目標修復結果替換整幅圖像修復結果對應位置的內容。
2.根據權利要求1所述的一種基于目標優化的語義圖像修復方法,其特征在于:在步驟1)中,利用線性插值將任意大小的RGB圖像調整為256×256大小的圖像,其核心思想是在兩個方向上分別進行一次線性插值,線性插值操作流程及公式如下:
已知圖像矩陣數據上存在四個點(x0,y0)、(x0,y1)、(x1,y0)、(x1,y1),f(x0,y0)、f(x0,y1)、f(x1,y0)、f(x1,y1)分別為四個點對應的值;
對橫坐標為x0的y軸方向進行線性插值的計算公式如下:
式中,Z1表示計算結果,v表示計算插值結果的點離坐標(x0,y0)的y軸方向距離;
對橫坐標為x1的y軸方向進行線性插值的計算公式如下:
式中,Z2為計算結果,v表示計算插值結果的點離坐標(x1,y0)的y軸方向的距離;
對x軸方向進行線性插值的計算公式如下:
式中,Z為最終的插值結果,u表示計算差值結果的點離x0的x軸方向的距離。
3.根據權利要求1所述的一種基于目標優化的語義圖像修復方法,其特征在于:在步驟2)中,圖像與掩膜相結合的實施方式為像素級操作,對于與掩膜中黑色區域對應的圖像位置,保留其像素值;對于與掩膜中白色區域對應的位置,使用圖像像素平均值進行填充。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910341570.X/1.html,轉載請聲明來源鉆瓜專利網。





