[發明專利]一種基于深度學習的注意力機制的語義分割的方法在審
| 申請號: | 202011194569.8 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112287940A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 王曉華;李志正;張蕾;王文杰 | 申請(專利權)人: | 西安工程大學 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 涂秀清 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 注意力 機制 語義 分割 方法 | ||
1.一種基于深度學習的注意力機制的語義分割的方法,其特征在于,具體步驟按照以下實施;
步驟1,獲取標準數據集,進行預處理;
步驟2,將步驟1預處理后的標準數據集圖像信息存儲并導入深度神經網絡模型中,通過DeeplabV3+引入的編碼-解碼結構和帶空洞卷積的金字塔池化模塊,以端到端的方式對網絡進行訓練,通過ASSP引入多尺度信息,通過Decoder模塊將底層特征和高層特征進行融合,提升分割邊界準確度;
步驟3,結合多通道注意力模塊,沿通道維度聚合尺度的上下文信息,強調分部大型對象,并在全局范圍內突出本地小物體信息,采用注意力特征融合模塊進行特征融合,將現有特征算子與擬議的AFF模塊一同放置,通過迭代集成的AFF框架形成iAFF框架;
步驟4,采用條件隨機場對語義分割的預測結果進行特征優化,將低層圖像信息和逐像素分類結果相結合;
步驟5,調整解碼端輸出特征的通道數并激活,即獲取最終的預測結果。
2.根據權利要求1所述的一種基于深度學習的注意力機制的語義分割的方法,其特征在于,所述步驟1具體為:
步驟1.1,采用DeepLabv3+語義分割網絡適用的數據集PASCAL VOC 2012;
步驟1.2,下載Deeplabv3+模型常用的標準PASCAL VOC 2012數據集;
步驟1.3,預處理PASCAL VOC 2012數據集,PASCAL VOC 2012包括原始數據集和增強數據集兩種版本的數據集,采用增強數據集的數據標簽label是.mat格式的文件,將.mat格式轉換為.png格式的圖片文件,轉化后的數據圖片是8-bit的灰度圖;
步驟1.4,數據集融合,將增強數據集中label轉化為三通道RGB圖,并轉化為8-bit的灰度.png圖像;
步驟1.5,數據集導入編碼端,調用函數轉換導入數據集。
3.根據權利要求1所述的一種基于深度學習的注意力機制的語義分割的方法,其特征在于,所述步驟2的具體步驟為:
步驟2.1,圖像信息Image輸入到Deeplabv3+上端編碼器Encoder中,通過解碼端處理,將編碼器輸出特征圖;
步驟2.2,采用不同尺寸卷積核和rate,利用多擴張率的空洞卷積獲取更豐富的上下文語義信息,提取多尺度特征,引入膨脹卷積即多擴張空洞卷積增加網絡感受野;
步驟2.3,使用Dilated Convolution膨脹卷積提取特征階段,實現感受野的擴大,并且不降低分辨率,實現保留原有位置信息并且語義信息保持不變;
步驟2.4,利用空洞金字塔池化,提出多尺度信息,根據ASPP有五個尺度,在Encoder部分,高級特征講過五個不同從操作得到5個輸出一個1×1卷積,3個不同尺度rate的dilation conv和1個ImagePool,在Decoder部分,對于兩個輸入分別操作,將low-level-feature經過1×1卷積調整維度,另一操作將Eecoder的1×1conv經過Decoder中的向上采樣Upsample,利用雙線性插值法,再將兩操作進行Concat結合處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工程大學,未經西安工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011194569.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電路板元件焊接用模具
- 下一篇:一種液位監測裝置及含其的植保無人機





