[發明專利]一種苗族服飾圖像語義分割方法在審
| 申請號: | 202111371509.3 | 申請日: | 2021-11-18 |
| 公開(公告)號: | CN114037833A | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 覃琴;馮意;王鑫;許文全;顏靖柯 | 申請(專利權)人: | 桂林電子科技大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06N3/04;G06N3/08 |
| 代理公司: | 桂林市華杰專利商標事務所有限責任公司 45112 | 代理人: | 羅玉榮 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 苗族 服飾 圖像 語義 分割 方法 | ||
1.一種苗族服飾圖像語義分割方法,其特征在于,包括如下步驟:
1)數據增強:采用Mosaic數據增強的方法,將苗族服飾四張圖像合成一張圖像、提取四張圖像特征信息,所述數據增強是指對圖片裁剪、翻轉、旋轉、縮放、扭曲幾何變換及像素擾動、添加噪聲、光照調節、對比度調節、樣本加和或插值、分割補丁;
2)編碼:采用基于多尺度漸進式注意力學習金字塔網絡模型MutilPPL將輸入的服飾圖片經過卷積的3次下采樣操作,每次下采樣操作將特征圖的長和寬縮小2倍、通道數擴大2倍,然后將卷積輸出的特征圖逐層傳入不同尺度的特征層進行特征融合;
3)解碼:將MutilPPL模型中的編碼器和解碼器的特征層進行密集跨級連接,使MutilPPL模型提取服飾多尺度特征信息,再采用金字塔結構融合特征局部與全局信息,最后在解碼器中進行3次轉置卷積逐步恢復高分辨率圖像,得到語義分割結果,MutilPPL模型中的解碼器結構與編碼器結構對稱,解碼器每次采用轉置卷積操作,將特征圖尺寸擴大2倍、通道數縮小2倍;
4)輔助分支結構:輔助分支結構由Conv-Classes模塊、漸進式注意力學習金字塔結構(PPL)模塊、Softmax分類器3個部分組成,定義編碼器中的Layer6、Layer 7、Layer 8作為輔助分支結構的輸入,其中,Conv-Classes模塊設有轉置卷積和1×1卷積,且在每個1×1卷積后面都加上實例化歸一化(Instance Normalization,簡稱IN)和ACON激活函數,將Layer6、Layer 7、Layer 8輸入到Conv-Classes模塊中得到不同類別的置信系數,然后將不同置信系數的通道進行連接并進行1×1卷積操作,并將它們的特征信息交叉輸入到兩個PPL模塊中,每個PPL模塊的輸出都進行一次1×1卷積操作,最后將PPL模塊聚合的多層特征輸入到Softmax分類器實現最終的輸出,
具體是:Layer 6和Layer 7對應淺和中層網絡,而Layer 8對應深層網絡,首先,解碼器根據不同層次的深度的卷積層Layer 6、Layer 7、Layer 8劃分不同的階段,獲得不同語義的特征信息,每個階段通過轉置卷積得到相同大小的特征圖,并經過卷積,得到不同階段的不同類別置信系數;然后,將不同置信系數的通道進行連接,同時將它們的特征信息交叉輸入到漸進式注意力學習金字塔結構(PPL),使網絡能夠合理利用不同階段學習的特征,專注有效特征提取,丟棄冗余特征;最后,將漸進式注意力學習金字塔結構聚合的多層特征輸入到Softmax分類器實現最終的輸出,輔助分支結構在解碼過程中分別提取三次轉置卷積的輸出特征,利用1×1卷積層將特征通道減少為7,并將卷積的結果進行融合;
5)實現語義分割:采用Softmax激活函數對特征圖進行分類,實現語義分割。
2.根據權利要求1所述的苗族服飾圖像語義分割方法,其特征在于,所述MutilPPL模型為中密集跨級連接網絡采用兩級結構,第一級結構在編碼器部分將低尺度和中等尺度的特征圖進行融合,第二級結構將融合后的結果作為整體再與高尺度特征圖進行融合,密集跨級連接網絡具體實現過程為:首先,在編碼器路徑上將下采樣的輸入與前特征層輸出連接,經過兩次卷積運算、并行高語義特征在編碼器上;然后,在解碼器路徑上將編碼器路徑和解碼器路徑的特征連接在一起,通過漸進式注意力學習金字塔結構提取自相似性特征,并聚合相似物體外觀、位置特征,對于連接不同尺寸和通道數的特征,采用最大池化(3×3、5×5、9×9)和卷積(3×3),確保分辨率相同和通道數一致,其中,在MutilPPL模型中設有5個漸進式注意力學習金字塔結構,漸進式注意力學習金字塔結構(PPL)由特征提取模塊和特征聚合模塊組成,定義一對相同大小的跨尺度特征層和作為PPL的輸入,其中特征提取模塊采用了可變形卷積,計算方式如公式(1)所示:
其中表示可變形卷積運算,表示當前第m層輸入的特征圖,表示前i層漸進式注意力學習金字塔結構輸出的特征圖,可變形卷積學習的偏移offset根據輸入的和進行計算,計算方式如公式(2)所示:
其中(ΔP)m表示m層的可變卷積偏移,‖表示通道連接,表示卷積運算,將計算得到的可變形卷積偏移作用到可變形卷積運算上得到然后,采用Softmax生成Mask特征級掩碼,Mask用于漸進式注意力學習金字塔結構聚集學習最相關的特征,計算方式如公式(3)所示:
采用Softmax對卷積后減去卷積后的結果進行計算,得到m層的Mask特征級掩碼,所計算的掩碼Mask進一步與可變形卷積的輸出相乘聚焦更多的相關特征,計算方式如公式(4)所示:
其中表示矩陣元素乘法運算,掩碼Mask與相乘后與進行通道連接,再對其得到的結果進行卷積運算后映射到上得到具有自相似性和跨尺度相似性特征的特征圖Fm,至此,模型完成了自相似性和跨尺度相似性特征提取,
特征聚合過程采用像素級運算集成權重和3D卷積計算融合提取的特征,對于像素級運算集成權重,采用空域注意力機制計算權重,計算方式如公式(5)所示:
其中⊙表示點積運算,(Θ)m表示空域注意力機制計算所得的權重,將的轉置與Fm分別卷積后再進行點積運算,然后利用Sigmoid生成權重,利用空域注意力機制計算的權重將輸入的特征進行加權融合,并采用額外融合卷積層來聚合注意力調制的特征計算方式如公式(6)公式(7)所示:
采用3D卷積融合特征、并計算融合特征后的空域注意力掩碼,通過掩碼對融合特征進行最后調制得到最終的輸出結果,計算方式如公式(8)所示:
漸進式注意力學習金字塔結構采用可變形卷積,每個漸進式注意力學習金字塔結構輸入包括一對相同大小的跨尺度特征層和,在完成特征信息提取后賦予特征像素級權重,并通過3D卷積聚合所有特征信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學,未經桂林電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111371509.3/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





