[發(fā)明專利]一種基于對抗訓(xùn)練的圖像語義分割方法有效
| 申請?zhí)枺?/td> | 201711075403.2 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN107767384B | 公開(公告)日: | 2021-12-03 |
| 發(fā)明(設(shè)計)人: | 高建彬;鄧澤露 | 申請(專利權(quán))人: | 電子科技大學(xué) |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06K9/62;G06N3/04 |
| 代理公司: | 成都弘毅天承知識產(chǎn)權(quán)代理有限公司 51230 | 代理人: | 李小金;王正楠 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 對抗 訓(xùn)練 圖像 語義 分割 方法 | ||
本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,公開了一種基于對抗訓(xùn)練的圖像語義分割方法,用于解決現(xiàn)有語義分割方法不能實現(xiàn)圖像全局信息和局部信息的有意義融合以及不能進行學(xué)習(xí)圖像中的高階勢能的問題。本發(fā)明由于基于對抗訓(xùn)練網(wǎng)絡(luò)來定義整個網(wǎng)絡(luò)的損失函數(shù),作為通用函數(shù)逼近器的對抗網(wǎng)絡(luò),不僅可以學(xué)習(xí)如何組合不同層的信息,而且還可以“迫使”生成網(wǎng)絡(luò)學(xué)習(xí)到分割圖片中的單點、配對、高階勢能等信息,實現(xiàn)圖像局部臺特征和全部特征的有機融合,得到效果更加逼真的分割圖像;同時逐層訓(xùn)練的方法,避免了復(fù)雜的網(wǎng)絡(luò)初始化參數(shù)過程,使得整個網(wǎng)絡(luò)可以使用隨機初始化的方法。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機視覺技術(shù)領(lǐng)域,涉及圖像語義分割和對抗訓(xùn)練,具體涉及一種基于對抗訓(xùn)練的圖像語義分割方法。
背景技術(shù)
隨著人工智能的發(fā)展及普及,圖像語義分割在計算機視覺領(lǐng)域的重要地位日漸凸顯。許多應(yīng)用都需要精確、高效的分割技術(shù),如自動駕駛,室內(nèi)導(dǎo)航,人機交互等等。近五年來,深度學(xué)習(xí)方法在計算機視覺領(lǐng)域取得巨大成功,各種網(wǎng)絡(luò)結(jié)構(gòu)被相繼提出用以解決該領(lǐng)域的不同問題,如圖像分類、定位等。然而,計算機視覺領(lǐng)域最成功的網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對于圖像語義分割來說,有一個重大的缺點:由于網(wǎng)絡(luò)結(jié)構(gòu)中大量的最大池化層堆疊,CNN最后獲取的特征是整張圖片的信息,而忽略了圖片的局部特征,如圖片中物體的邊緣、位置等信息。誠然,CNN的特征不變性正是分類定位任務(wù)所要求的,然而圖像語義分割指的是將圖片中每個像素點歸為一個類別,這就要求在獲取全局特征的同時,保留局部特征。所以,當(dāng)CNN直接運用到圖像語義分割時,往往不能取得特別好的效果。并且CNN最后的分割結(jié)果,各像素之間的預(yù)測值往往是相互獨立的,這也使得最后的分割結(jié)果很難保留原始圖片的細節(jié)信息。
在現(xiàn)有的比較常見的解決上述問題的方法中,大致可歸于以下三類;跨層連接:這是指從卷積神經(jīng)網(wǎng)絡(luò)的中間層獲取圖片局部特征,與網(wǎng)絡(luò)的高層的全局特征進行融合,這樣最后生成的分割圖像會保留一部分細節(jié)信息。條件隨機場:這是一種概率圖模型,它利用CNN的分割結(jié)果來定義單點勢能以及配對勢能,接著進行推斷來得到模型參數(shù),這種方法迫使CNN的分割結(jié)果具有空間上的連續(xù)性,可以恢復(fù)更多的細節(jié)信息。其它結(jié)構(gòu)方面的改變:比如空洞卷積,循環(huán)卷積神經(jīng)網(wǎng)絡(luò)等。
總體說來,圖像語義分割還存在以下問題:
(1)跨層連接對于不同層信息的融合方式過于簡單,不能實現(xiàn)圖像全局信息和局部信息的有意義融合。
(2)條件隨機場只局限于單點勢能以及配對勢能,并沒有采用更高階的勢能,比如超像素的標(biāo)簽的連續(xù)性,然而,這些更高階的勢能已經(jīng)被證明在提升分割的結(jié)果中是有意義的。
發(fā)明內(nèi)容
本發(fā)明的目的在在于:針對上述技術(shù)問題,而提供一種基于對抗訓(xùn)練的圖像語義分割方法,利用對抗訓(xùn)練來進行更有效的信息融合以及自動學(xué)習(xí)分割結(jié)果的高階勢能。
為解決技術(shù)問題,本發(fā)明所采用的技術(shù)方案是:
一種基于對抗訓(xùn)練的圖像語義分割方法,其特征在于,包括如下步驟:
步驟1:將原始圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)進行前向傳遞,得到低分辨率分割圖像;
步驟2:將步驟1中得到的低分辨率分割圖像進行上采樣,然后將該上采樣與卷積神經(jīng)網(wǎng)絡(luò)的中間特征層連接得到連接特征層,再將連接特征層進行1x1卷積操作得到新的分割結(jié)果;然后將得到的新的分割結(jié)果與原始圖像的下采樣分割結(jié)果進行對抗訓(xùn)練,利用梯度下降算法分別更新生成網(wǎng)絡(luò)G及判別網(wǎng)絡(luò)D參數(shù),直至對抗訓(xùn)練的網(wǎng)絡(luò)損失函數(shù)收斂;
步驟3:根據(jù)步驟2中的選取的上采樣次數(shù)確定對抗訓(xùn)練的網(wǎng)絡(luò)的層數(shù),根據(jù)網(wǎng)絡(luò)的層數(shù)確定步驟2重復(fù)的次數(shù)。如果步驟2中進行2次上采樣,那么對抗訓(xùn)練中的網(wǎng)絡(luò)層數(shù)為2,即完成第一次步驟2之后再重復(fù)一次步驟2;若步驟2中進行3次上采樣,那么對抗訓(xùn)練中的網(wǎng)絡(luò)層數(shù)為2,在完成第一次步驟2之后再重復(fù)二次步驟2。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711075403.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 農(nóng)業(yè)信息對抗資源目標(biāo)規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源模糊規(guī)劃最優(yōu)分配方法
- 農(nóng)業(yè)信息對抗資源線性規(guī)劃最優(yōu)分配方法
- 基于聚類數(shù)據(jù)挖掘的對抗行為搜索算法
- 面向多種對抗圖片攻擊的協(xié)同免疫防御方法
- 一種自適應(yīng)對抗強度的對抗訓(xùn)練方法
- 對抗攻擊模型的訓(xùn)練方法及裝置
- 對抗樣本的生成方法和裝置
- 多樣本對抗擾動生成方法、裝置、存儲介質(zhì)和計算設(shè)備
- 一種無人集群協(xié)同博弈對抗的控制方法及系統(tǒng)
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





