[發明專利]一種融合網絡和雙通道注意力機制的街景圖像分割方法有效
| 申請號: | 202010174544.5 | 申請日: | 2020-03-13 |
| 公開(公告)號: | CN111401436B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 付晶瑩;張珣;馬廣馳;江東;郝蒙蒙;王昊 | 申請(專利權)人: | 中國科學院地理科學與資源研究所;北京工商大學 |
| 主分類號: | G06V20/00 | 分類號: | G06V20/00;G06V20/70;G06V10/26;G06V10/82;G06V10/774;G06V10/80;G06N3/0464;G06N3/0455;G06N3/082 |
| 代理公司: | 北京萬象新悅知識產權代理有限公司 11360 | 代理人: | 黃鳳茹 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 網絡 雙通道 注意力 機制 街景 圖像 分割 方法 | ||
1.一種融合網絡和雙通道注意力機制的街景圖像分割方法,包括訓練階段和測試階段,其特征是:
一、訓練階段:構建基于高分辨率融合網絡和雙通道注意力機制的圖像分割卷積神經網絡模型并訓練模型;包括如下步驟:
1)選取圖像訓練集,包括原始圖像及相應的真實語義分割圖像;并分別將訓練集中的每幅原始街景圖像對應的真實語義分割圖像處理成獨熱編碼圖像;
選取M幅原始的街景圖像及每幅原始的街景圖像對應的真實語義分割圖像,并構成訓練集,將訓練集中的第m幅原始的街景圖像記為{Im(i,j)},將訓練集中與{Im(i,j)}對應的真實語義分割圖像記為M為正整數;M≥100;m為正整數,1≤m≤M;(i,j)為圖像中像素點的坐標位置;1≤i≤W,1≤j≤H,W表示{Im(i,j)}的寬度,H表示{Im(i,j)}的高度;Im(i,j)表示{Im(i,j)}中坐標位置為(i,j)的像素點的像素值,表示中坐標位置為(i,j)的像素點的像素值;
將訓練集中的每幅原始街景圖像對應的真實語義分割圖像處理成多幅獨熱編碼圖像,構成的集合記為
2)構建基于高分辨率融合網絡和雙通道注意力機制的圖像分割卷積神經網絡模型并訓練:
基于高分辨率融合網絡和雙通道注意力機制的圖像分割卷積神經網絡模型包括輸入層、隱層和輸出層;隱層包括以密集采樣方式堆疊的四個擴張卷積塊、高分辨率融合網絡和雙通道注意力機制;
2A)輸入層用于接收原始輸入圖像的R、G、B三通道分量并輸出給隱層;
輸入層的輸入端接收一幅寬度為W,高度為H的原始輸入圖像的R、G、B三通道分量,輸入層的輸出端輸出原始輸入圖像的R、G、B三通道分量給隱層;
2B)通過隱層中的以密集連接方式堆疊的四個擴張卷積塊按序生成多幅特征圖;
隱層中的密集連接方式堆疊的四個擴張卷積塊中,每個擴張卷積塊由帶有BN層、Relu層和擴張卷積層構成;
第1個擴張卷積塊輸入端接收輸入層的輸出端輸出的原始輸入圖像的R通道分量、G通道分量和B通道分量,擴張率為3,輸出端輸出32幅特征圖,將32幅特征圖構成的集合記為R1;
第2個擴張卷積塊輸入端接收輸入層的輸出端輸出的原始輸入圖像的所有通道分量和R1,擴張率為6,輸出端輸出64幅特征圖,將64幅特征圖構成的集合記為R2;
第3個擴張卷積塊輸入端接收輸入層的輸出端輸出的原始輸入圖像的所有通道分量、R1和R2,擴張率為12,輸出端輸出128幅特征圖,將128幅特征圖構成的集合記為R3;
第4個擴張卷積塊輸入端接收輸入層的輸出端輸出的原始輸入圖像的所有通道分量、R1、R2和R3,擴張率為18,輸出端輸出64幅特征圖,將64幅特征圖構成的集合記為R4;其中,R4中每幅特征圖的寬度為W,高度為H;
2C)通過三個階段構建隱層中的高分辨率融合網絡:
利用殘差網絡中的殘差基本塊作為網絡搭建的基本塊;每個階段均比前一階段多增加一條輸入分支,即多獲得一種分辨率的特征圖層;每個階段之間進行分辨率特征圖層的相互融合,在空間上保留原始圖像更多的特征信息;具體包括:
第一階段生成兩個并行網絡S1和S2:
S1由3個殘差基本塊串聯構成;每個殘差基本塊的輸入特征層與輸出特征層的寬和高一致,S1輸入端接收R4中所有的特征圖,S1的輸出端輸出36幅特征圖,將36幅特征圖構成的集合記為R6,其中,R6中的每幅特征圖的寬度為W,高度為H;R4集合所有特征層通過卷積得到64幅特征層集合R5,其中,R5中的每幅特征圖的寬度為W/2,高度為H/2;
S2由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S2輸入端接收R5中所有的特征圖,S2輸出端輸出36幅特征圖,將36幅特征圖集合記為R7,其中,R7中的每幅特征圖的寬度為W/2,高度為H/2;R6特征集合通過下采樣得到寬度為W/2、高度為H/2的36幅特征圖層集合R8;通過下采樣得到寬度為W/4、H/4的36幅特征圖層集合R9;R7特征圖層集合通過上采樣得到寬度為W、高度為H的36幅特征圖層集合R10;通過下采樣得到寬度為W/4、H/4的36幅特征圖層集合R11;
第二階段生成三個并行網絡S3、S4和S5:
S3由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S3輸入端接收R6與R10中所有的特征圖,S3的輸出端輸出72幅特征圖,將72幅特征圖構成的集合記為R12,其中,R12中的每幅特征圖的寬度為W,高度為H;
S4由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S4輸入端接收R7與R8中所有的特征圖,S4的輸出端輸出72幅特征圖,將72幅特征圖構成的集合記為R13,其中,R13中的每幅特征圖的寬度為W/2,高度為H/2;
S5由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S5輸入端接收R9與R11中所有的特征圖,S5的輸出端輸出72幅特征圖構成的集合記為R14,其中,R14中的每幅特征圖的寬度為W/4,高度為H/4;
在S3、S4和S5的輸出端,R12特征集合通過下采樣得到寬度為W/2、H/2的72幅特征圖層集合R15;通過下采樣得到寬度為W/4、H/4的72幅特征圖層集合R16;通過下采樣得到寬度為W/8、H/8的72幅特征圖層集合R17;R13特征集合通過上采樣得到寬度為W、H的72幅特征圖層集合R18;通過下采樣得到寬度為W/4、H/4的72幅特征圖層集合R19;通過下采樣得到寬度為W/8、H/8的72幅特征圖層集合R20;R14特征集合通過上采樣得到寬度為W、H的72幅特征圖層集合R21;通過上采樣得到寬度為W/2、H/2的72幅特征圖層集合R22;通過下采樣得到寬度為W/8、H/8的72幅特征圖層集合R23;
第三階段生成四個并行網絡S6、S7、S8和S9,其中:
S6由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S6輸入端接收R12、R18與R21中所有的特征圖,S6的輸出端輸出144幅特征圖,將144幅特征圖構成的集合記為R24,其中,R24中的每幅特征圖的寬度為W,高度為H;
S7由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S7輸入端接收R13、R15與R22中所有的特征圖,S7的輸出端輸出144幅特征圖,將144幅特征圖構成的集合記為R25,其中,R25中的每幅特征圖的寬度為W/2,高度為H/2;
S8由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S8輸入端接收R14、R16與R19中所有的特征圖,S8的輸出端輸出144幅特征圖,將144幅特征圖構成的集合記為R26,其中,R26中的每幅特征圖的寬度為W/4,高度為H/4;
S9由3個殘差基本塊串聯構成,每個殘差基本塊的輸入特征層與輸出特征層寬高一致,S9輸入端接收R17、R20與R23中所有的特征圖,S9的輸出端輸出144幅特征圖,將144幅特征圖構成的集合記為R27,其中,R27中的每幅特征圖的寬度為W/8,高度為H/8;R25特征集合通過上采樣得到寬度為W、H的144幅特征圖層集合R28;R26特征集合通過上采樣得到寬度為W、H的144幅特征圖層集合R29;R27特征集合通過上采樣得到寬度為W、H的144幅特征圖層集合R30;
2D)由位置注意力機制與通道注意力機制兩個并行注意力機制網絡構成隱層的雙通道注意力機制;具體為:
2D1)將特征圖集合R24、R28、R29和R30合并為新的特征圖集合R31,將特征圖集合R31經過一個帶有BN層和Relu層的1×1卷積層,輸出一個寬度為W,高度為H的36幅特征圖集合R32;
2D2)位置注意力機制網絡輸入端的輸入為表示通道數為36,寬度為W,高度為H的特征圖集合;通過帶有BN層和ReLU層的卷積操作,得到兩個新的特征C、D,其中{C,D}∈R36×H×W;
2D3)將特征C、D重新定義形狀為R36×N,其中N=H×W;在特征C和D的轉置矩陣上應用矩陣乘法,再應用softmax層計算位置映射圖S∈RN×N;
2D4)同時將特征圖集合輸入到一個帶有BN層和ReLU層的卷積層,產生另一個特征圖集合重新定義形狀為R36×N;
2D5)然后對D和S的轉置矩陣應用矩陣乘法,重新定義形狀為然后乘上因子α,α是可隨網絡自動調節的參數;與特征A進行逐元素的相加操作,得到最終的輸出2D6)通道注意力機制網絡輸入端的輸入將進行reshape操作生成特征圖集合然后在與的轉置上應用矩陣乘法,再應用softmax層獲得通道注意力圖
2D7)之后對X的轉置和進行一次矩陣乘法,然后reshape到R36×H×W,再乘上因子β,與原始特征A進行逐元素的加和操作,得到最終的特征圖G∈R36×H×W;
2D8)將2D5)的特征圖集合F和步驟2D7)的特征圖集合G合并,然后通過帶有BN層和Relu層的1×1卷積層之后,即得到新的特征圖集合R36;
2D9)輸出層由1個卷積層組成;輸出層的輸入端接收新特征圖集合R36,輸出層的輸出端輸出與原始輸入圖像對應的語義分割預測圖;其中,每幅語義分割預測圖的寬度為W、高度為H;
2E)將訓練集中的每幅原始的街景圖像作為原始輸入圖像,輸入到步驟2)構建的卷積神經網絡模型中進行訓練,得到訓練集中的每幅原始的街景圖像對應的多幅語義分割預測圖,將每幅原始的街景圖像{Im(i,j)}對應的語義分割預測圖構成的集合記為
2F)計算訓練集中的每幅原始的街景圖像對應的多幅語義分割預測圖構成的集合與對應的真實語義分割圖像處理成的獨熱編碼圖像集合之間的損失函數值,將與之間的損失函數值記為
2G)重復執行步驟2E)和步驟2F)共N次,得到卷積神經網絡分類訓練模型,并共得到M×N個損失函數值;然后從M×N個損失函數值中找出值最小的損失函數值;其中,N>1;接著將值最小的損失函數值對應的權值矢量和偏置項作為卷積神經網絡分類訓練模型對應的最優權值矢量和最優偏置項,對應記為Wbest和bbest;即完成卷積神經網絡分類模型的訓練,得到訓練好的基于高分辨率融合網絡和雙通道注意力機制的圖像分割卷積神經網絡模型;
二、測試階段,包括如下步驟:
3A)令表示待語義分割的道路場景圖像;其中,1≤i'≤W',1≤j'≤H',W'表示的寬度,H'表示的高度,表示中坐標位置為(i,j)的像素點的像素值;
3B)將的R通道分量、G通道分量和B通道分量輸入到訓練好的卷積神經網絡分類模型中,利用Wbest和bbest進行預測,得到對應的預測語義分割圖像,記為其中,表示中坐標位置為(i',j')的像素點的像素值;
通過上述步驟,即實現基于高分辨率融合網絡和雙通道注意力機制的圖像語義分割。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院地理科學與資源研究所;北京工商大學,未經中國科學院地理科學與資源研究所;北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010174544.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:天氣預報方法以及相關裝置
- 下一篇:一種高強度V0阻燃PET復合改性材料





