[發明專利]一種卷積注意力機制上采樣解碼的語義分割方法在審
| 申請號: | 202110864663.8 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113486897A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 劉萬軍;董康龍 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏正合知識產權代理事務所(普通合伙) 11017 | 代理人: | 韓登營;韓惠琴 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 卷積 注意力 機制 采樣 解碼 語義 分割 方法 | ||
本發明提供了一種卷積注意力機制上采樣解碼的語義分割方法,包括通過空洞卷積深度神經網絡提取特征,增大特征提取感受野;通過卷積池化金字塔聚合語義分割類別的局部和全局相關上下文信息,平均池化計算得到特征圖;利用特征圖的空間關系生成空間注意力特征信息,分別進行一個通道的最大池化和另一個平均池化;經過兩層的神經網絡,將得到的特征圖相加經過激活函數,引入非線性信息,增強通道的泛化性,得到權重系數;經過卷積空間注意力和卷積通道注意力,得到兩個新的特征圖,通過融合上采樣,表達空間分辨信息,輸出預測分類的語義分割結果。本發明的上采樣卷積注意力機制恢復分辨率結構,提升語義分割效果及性能,降低網絡計算內存消耗。
技術領域
本發明涉及圖像處理的技術領域,尤其涉及一種卷積注意力機制上采樣解碼的語義分割方法。
背景技術
語義圖像分割是計算機視覺中的一項基本任務,目標是將圖像劃分為具有不同語義類別的區域。應用于一些實際場景,如增強現實和自動駕駛。通常方法是基于深度學習的語義分割方法采用具有編碼器解碼器結構的卷積神經網絡進行特征提取和上采樣分辨率恢復,將語義分割類別像素分類,輸出每個像素對應結果。全卷積網絡(FCN)是在語義分割中采用深度卷積神經網絡(DCNN)的開創性工作,通過在典型DCNN網絡架構的最后階段用卷積層替換全連接層。在通過跳躍鏈接的方法融合低級語義特征信息上采樣分類輸出預測結果。由于受卷積層結構的限制,FCN網絡模型受限于卷積感受野,并且缺乏全局依賴信息。空洞卷積和金字塔結構在語義分割性能方面進一步改進了基于FCN的架構。擴大神經網絡提取特征的感受野并聚合更多的全局視覺信息。
在編解碼結構的語義分割網絡模型中,解碼器上采樣通常使用雙線差值或者上池化和反卷積方法恢復分辨率尺寸。雙線插值是通過數值分析的方法,使用連接兩個已知像素的直線來確定在這兩個像素之間的一個未知像素值的方法。即在縮放特征圖過程中,通過鄰近像素確定縮放目標特征圖像素信息。反卷積通常根據特征提取網絡的熱力圖尺寸,通過學習大量的卷積核參數,輸出預測結果,需要大量計算以及更長的網絡訓練時間,也需要更多的內存空間。
語義分割上采樣跳躍鏈接結構,通過在全卷積網絡結構中個跨層連接多級低級語義特征信息和局部特征信息,學習端到端的空間預測信息表達。在5個卷積層之后有了32倍的降采樣特征圖,然后直接通過雙線性插值生成32倍的預測特征圖,這樣會缺乏空間分辨率信息,通過引入前面幾個卷積層生成的冗余粗糙特征信息來做融合,彌補在空間位置上丟失的信息。由于使用最后輸出的前兩個卷積層是有效的,而結合別的語義特征特就過低。分別在編碼器特征提取過程中生成1/4特征圖和1/8特征圖直連解碼器上采樣,然后通過額外的卷積層來做語義分割推理,再通過多分類器輸出預測結果。
跳躍連接結構能以端到端,逐像素的用全卷積神經網絡提升語義分割效果。需要在不同階段融合低級語義特征信息,因而網絡模型訓練過程中需要分多次訓練,導致訓練時間長,且最終得到的結果不夠精細。在上采樣過程中為了彌補一些空間信息,分階段融合了低級語義特征信息,但是融合特征太過于粗糙,丟失了空間分辨率信息。其次是沒有考慮像素之間關聯性,缺乏像素信息的空間一致性。最終得到的預測結果不夠精細,第三階段的訓練結果較32倍上采樣提升了效果,但最終結果還是較為模糊,并且在預測結果中丟失了細節信息,導致預測缺乏準確性。
語義分割上采樣轉置卷積方法,通過使用多個濾波算子,學習濾波參數,類似卷積操作獲得激活熱力圖,串聯的反卷積層的層次結構用于捕獲不同級別的形狀特征圖細節,使用反卷積將目標類別密切相關的激活信息被放大,而池化將來自其他區域的污染噪聲激活被有效抑制。將濾波窗口的多個輸入激活信息相連,低層中的濾波器算子傾向于捕獲對象的整體形狀,而特定類別的精細細節在較高層的濾波算子中進行編碼,以這種方式,通過池化和反卷積的連續操作獲得密集的像素級概率圖,輸出一個放大的密集熱力特征圖,最終獲得同輸入圖像分辨率大小的預測結果,直接將特定類別的形狀信息考慮在內進行語義分割,以更精細的分辨率有效地重建了分割目標的詳細結構,得到較為精準的分割結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110864663.8/2.html,轉載請聲明來源鉆瓜專利網。





