[發明專利]一種基于輕量級交叉注意網絡的實時語義分割的方法在審
| 申請號: | 202210516623.9 | 申請日: | 2022-05-12 |
| 公開(公告)號: | CN114972752A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 王娟;袁旭亮;葉永鋼;張則濤;劉子杉;郭力權;陳關海 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06F17/16;G06V10/774;G06V10/82 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 羅飛 |
| 地址: | 430068 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 輕量級 交叉 注意 網絡 實時 語義 分割 方法 | ||
本發明涉及一種基于輕量級交叉注意網絡的實時語義分割的方法,包括:準備訓練、測試用的圖像數據集;構建基于交叉注意機制的輕量級實時語義分割網絡,包括編碼器和解碼器,編碼器僅去除ResNet18尾部的全連接層以后的部分,其余部分保持不變,解碼器包括兩個CSCA模塊和一個CAB模塊;使用訓練好的網絡模型得到圖像語義分割結果。本發明提出的CSCA模塊使用條狀交叉親和運算來生成通道注意力權重向量,以實現經濟的淺層特征選擇及多尺度特征混合,從而使網絡的分割輪廓更清晰,引入解碼器的噪聲更小;CAB模塊通過捕獲水平和垂直空間維度之間的交叉信息以獲取遠程交叉上下文信息,有效地消除了卷積神經網絡(CNN)無法捕獲遠程上下文信息的限制。
技術領域
本發明屬于語義分割技術領域,具體涉及一種基于輕量級交叉注意網絡的實時語義分割的方法。
背景技術
語義分割是計算機視覺的重要組成部分,旨在將圖像的每個像素分類到一個相對類中,可以視作是密集分類任務。由于卷積神經網絡(CNN)的發展,語義分割近年來取得了很大的進展。如何獲取空間信息、捕獲長范圍依賴信息是進一步提高語義分割準確性的關鍵因素,也是許多研究人員所研究的重點。
針對空間信息丟失過多的問題,降低下采樣率和使用多尺度特征混合是被廣泛使用的策略。在語義分割領域,低的下采樣率意味著高的計算復雜度和窄的視野。因此,大多數網絡都采用多尺度特征混合以高效地獲取空間信息。例如,FCN在解碼器部分注入多尺度特征,UNet和LinkNet密集地將編碼器的低級特征混淆到相應的解碼器中。不同的是,為了在提取深層特征時保留空間細節,DAFNet在編碼過程中不斷加入多尺度特征。這些模型的多尺度特征混合過于粗糙,不可避免地將低級特征的噪聲引入模型中,使分割結果變差。為了在沒有噪聲的情況下收集低級特征的空間信息,RefineNet在解碼器部分使用復雜的混合處理模塊以抑制淺層特征的噪聲。顯然,RefineNet是以高計算復雜度為代價實現精細的多尺度特征混和。為了有效混合多尺度特征,LRefineNet將RefineNet中殘余卷積單元(RCU)和鏈式殘差塊(CRB)的3×3卷積層替換為1×1卷積,但是LRefineNet的多尺度特征混合極致依然占用極大地計算和存儲資源。通過上述觀察發現,有選擇地使用多尺度特征混合是獲取充足空間信息的有效途徑。
對于CNN只能捕獲局部上下文信息的固有局限性問題,全局平均池化和注意力機制是解決這一問題的有效策略。PSPNet在編碼器的尾部引入了金字塔池化模塊(PPM)以捕獲并行池化層中的多尺度特征,生成通道級的上下文依賴信息。DeepLabV2引入了多孔空間金字塔池化(ASPP)模塊,將捕獲的多尺度特征融合從而形成上下文依賴信息。這些方法捕獲的上下文信息可以看作是通道級的信息依賴,不但降低了網絡的實時性,而且捕獲的上下文信息有局限性(通道級上下文信息)。為了捕獲長范圍的上下文信息,NL引入了自注意力機制來獲得足夠的長范圍依賴信息。然而,NL需要大量的內存和計算資源,不利于提高模型的實時推理能力。為了解決NL的問題,ANL利用PPM生成多尺度權重向量,極大地減少注意力機制的計算量和內存占用。類似地,AtteNet使用條狀全局池化生成條狀的注意力特征,降低了注意力機制對內存的使用需求。但是以上兩種上下文信息捕獲方式中無論是通道級的上下文信息捕獲,還是捕獲整體特征映射上下文信息的注意力機制,它們都只聚合同一空間維度的上下文信息,而不關注交叉空間維度的上下文信息。同一維度的兩個特征圖得到的親和矩陣趨于不變,不利于獲得清晰的分割輪廓,即相同空間維度的親和運算只是空間信息的積累,不可能獲得空間維度的交叉信息。
目前的語義分割存在空間信息丟失嚴重、遠程依賴信息缺乏的問題,阻礙了語義分割的進一步發展。
發明內容
本發明針對現有技術的不足,提供一種基于輕量級交叉注意網絡的實時語義分割的方法,利用CSCA模塊使用條狀交叉附屬運算生成通道注意力權重向量,用很少的工作量實現了通道特征混淆,并在解碼器的尾部引入CAB模塊,通過捕獲水平和垂直空間維度之間的交叉信息以獲取遠程交叉上下文信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210516623.9/2.html,轉載請聲明來源鉆瓜專利網。





