[發明專利]一種基于重構損失的圖像翻譯方法有效
| 申請號: | 202010978853.8 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112541566B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 邵明文;張文龍;宋曉霞 | 申請(專利權)人: | 中國石油大學(華東);山東至信信息科技有限公司 |
| 主分類號: | G06N3/045 | 分類號: | G06N3/045;G06N3/0475;G06N3/0464;G06N3/094 |
| 代理公司: | 青島鼎尖知識產權代理有限公司 37318 | 代理人: | 宋濤 |
| 地址: | 山東省青島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 損失 圖像 翻譯 方法 | ||
本發明屬于圖像翻譯技術領域,公開了一種基于重構損失的圖像翻譯方法,采用無監督的方法,使用循環一致性網絡CycleGAN,利用循環一致性網絡CycleGAN判別器提取真實數據的特征,向采用帶跳躍連接的U?net網絡結構的生成器提供真實數據特征重建真實數據,采用LSGAN損失函數,對不同域的圖像進行轉換,將不成對的兩個域的圖片相互翻譯。本發明生成器采用帶跳躍連接的U?net網絡結構,使得粗粒度和細粒度的特征相融合;損失函數采用LSGAN,提高了訓練過程的穩定性;利用判別器提取真實數據的特征,向生成器提供該特征來重建真實數據,優化真實數據與重構數據之差,使其誤差最小,提高了圖片的生成質量。
技術領域
本發明屬于圖像翻譯技術領域,尤其涉及一種基于重構損失的圖像翻譯方法。
背景技術
目前,在圖像處理、計算機圖形學和計算機視覺三大領域中,很多問題被統一規定為,將輸入圖像“轉換”為相應的輸出圖像。正如一個概念可以用英語或法語表達,場景可以呈現為RGB圖像、邊緣圖或語義標簽圖。與語言翻譯類似,圖像翻譯可以被定義為,在給定足夠訓練數據的情況下,將場景的一種表示方式轉換為另一種。
卷積神經網絡(CNNs)的出現極大推動了圖像處理的發展,該網絡已成為圖像處理問題的背后主力。CNNs通過學習將損失函數降到最低--一個評估結果質量的目標,盡管學習過程是自動的,但仍需要手動設置有效的損失函數。換句話說,告訴CNNs將損失函數降到最低。如果采取一些方法并要求CNNs最小化預測像素和ground?truth像素之間的歐幾里得距離,它將傾向于產生模糊的結果。這是因為通過平均所有合理的輸出來最小化歐幾里德距離。因此提出合理的損失函數迫使CNNs輸出清晰、逼真的圖像,是圖像處理領域一直致力解決的問題。
設定一個高級目標,令輸出與現實無法區分,讓網絡模型自動學習適合于滿足此目標的損失函數并優化,與現有技術1提出的生成對抗網絡(GAN)表達的思想一致。假設輸出圖像為真或假時,GAN則會學習一種損失,試圖對其進行分類,同時訓練生成模型以最小化這種損失。因為GAN學習適應數據的損失,所以它可以應用于傳統上需要不同類型損失函數的大量任務,但其缺陷是太過自由,對于較大圖片、較多像素的情形,基于簡單GAN的方式不太可控,生成數據與原始數據差異較大。因此現有技術2提出了CGAN模型,在GAN模型的基礎上添加了額外的條件約束信息,用來指導數據的生成過程,雖然改善了實驗效果,但結果仍存在不穩定、模糊、斑點等各類問題。現有技術3提出Pix2Pix模型,該模型添加了一個L1損失,即在圖像的像素級別計算損失,pix2pix產生的效果圖更接近于真實的圖像。然而還有許多方法要求進行有監督的訓練,即擁有帶標簽的配對數據,但獲得配對數據集需要耗費大量的物力財力,甚至是不可實現的。隨后,其他模型相繼被提出,利用非配對的數據集進行無監督地訓練。3個非監督學習的網絡模型架構極其相似,均由2個GAN結構組成,但在目標函數、生成器、判別器的構成上略有不同。然而,以上所采用的方法均將生成器和真實數據分離,即讓生成器間接學習真實數據的分布,從而導致生成低質量的圖像。
通過上述分析,現有技術存在的問題及缺陷為:
現有基于GAN的圖像翻譯方法將生成器與訓練樣本分離,使得生成器間接地學習訓練樣本的分布,進而導致生成圖像質量低,且真實圖像與生成的翻譯圖像的誤差大。
解決以上問題及缺陷的難度為:
在圖像翻譯任務中,獲得大量的成對訓練數據集需要耗費很大的成本,而且有時候無法獲取成對數據。因此,在GAN的訓練中使用非成對的數據,而且訓練過程中伴隨著訓練不穩定和模式崩潰的問題。
解決以上問題及缺陷的意義為:
解決以上問題不僅提高判別器的性能,而且使得生成器直接學習數據分布,進而生成高質量圖像。
發明內容
針對現有技術存在的問題,本發明提供了一種基于重構損失的圖像翻譯方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油大學(華東);山東至信信息科技有限公司,未經中國石油大學(華東);山東至信信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010978853.8/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





