[發(fā)明專利]基于階段性特征語義對齊的實時街景圖像語義分割方法有效
| 申請?zhí)枺?/td> | 202110295657.5 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN113011429B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設計)人: | 嚴嚴;翁熙;王菡子 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/774;G06V10/764;G06V10/82;G06V20/10;G06N3/0455;G06N3/0464;G06N3/048;G06N3/082 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 階段性 特征 語義 對齊 實時 街景 圖像 分割 方法 | ||
一種基于階段性特征語義對齊的實時街景圖像語義分割方法,涉及計算機視覺技術。首先利用輕量級圖像分類網絡ResNet?18和高效空間?通道注意力模塊構建編碼器,并使用多個不同設計的特征對齊模塊模塊與全局平均池化層構建解碼器。接著,利用上述得到的編碼器與解碼器,構成基于編碼器?解碼器網絡結構的語義分割網絡模型。最后將編碼器中的特征與解碼器的輸出特征進行聚合并送入語義分割結果生成模塊中,以得到最終的語義分割結果。在維持高分辨率的輸入圖像且不降低圖像分辨率的情況下,能夠以實時的速率高效地產生對應的分割結果。比起現有的實時語義分割方法,能夠取得更加優(yōu)秀的分割精度,在速度和精度之間取得更好的平衡。
技術領域
本發(fā)明涉及計算機視覺技術,尤其是涉及一種基于階段性特征語義對齊的實時街景圖像語義分割方法。
背景技術
語義分割是場景理解的關鍵技術之一,它需要對圖像中的每一像素點進行預測,以實現對該圖像的像素級語義類別分類工作。近年來,自動駕駛和智能交通的應用引起人們的廣泛關注。在這些應用中,一個人們亟需解決的問題即是如何在語義層次上提供對交通狀況的全面理解。因此,對街景圖像語義分割方法進行研究并提供像素級別的街景場景理解,對這些應用來說就顯得異常重要。
近年來,受益于卷積神經網絡的發(fā)展,大量基于深度學習方法的語義分割方法被提出。這些方法通過捕獲豐富的語義信息與空間細節(jié)信息取得優(yōu)異的分割結果。但是,這些方法的基礎網絡部分網絡采用復雜的深度神經網絡來捕獲輸入圖像中的語義信息。如常被采用的網絡ResNet-101(K.He,X.Zhang,S.Ren,and?J.Sun,“Deep?residual?learning?forimage?recognition,”in?Proc.IEEE?Int.Conf.Comput.Vis.Pattern?Recognit.(CVPR),Jun.2016,pp.770–778.),它雖然能提供強大的語義信息提取能力,但其龐大網絡的層數和寬度都也使得其效率低下。通常來說,自動駕駛和智能交通等應用不僅需要高分辨率的輸入圖像覆蓋廣闊的視場,還需要高效的交互或響應速度。因此,研究在實時條件下能夠維持高分割精度的語義分割方法也收到研究人員們的廣泛關注。
到目前為止,人們一直在努力實現高效的或實時的語義分割。這些方法通常采用降低輸入圖像分辨率的方法或采用輕量級基礎網絡以提高網絡的效率。雖然這些方法大大降低語義分割的計算復雜度,但在一定程度上丟失上下文信息或空間細節(jié),從而導致準確率顯著下降。因此,如何在網絡預測速度和分割精度之間取得良好的平衡成為實時語義分割的一個關鍵挑戰(zhàn)。
基于以上的技術背景,在本發(fā)明中提出一種基于階段性特征語義對齊的實時街景圖像語義分割方法。在僅僅采用輕量級基礎網絡的同時,增強所用特征的表示能力。由此,使得語義分割網絡模型能夠在維持實時的網絡預測速度的同時保持出色分割精度。
發(fā)明內容
本發(fā)明的目的在于針對現有技術存在的上述技術問題,提供夠以實時的速率高效地產生對應的分割結果,且分割精度高的一種基于階段性特征語義對齊的實時街景圖像語義分割方法。
本發(fā)明包括以下步驟:
A.將街景圖像語義分割數據集劃分為訓練集、驗證集和測試集;
B.以輕量級圖像分類網絡結構為基礎,結合專門設計的高效空間-通道注意力模塊構建語義分割網絡模型的基礎網絡;
C.根據步驟B中得到的基礎網絡中不同階段特征的自身特性,設計具有不同網絡結構的特征語義對齊模塊;
D.以步驟B中得到的基礎網絡為編碼器,并以全局平均池化層和步驟C中設計的多個特征對齊模塊組合為解碼器,搭建以對稱的編碼器-解碼器網絡結構為基礎的語義分割網絡模型;
E.把步驟D得到的網絡結構的最后階段輸出特征與編碼器第一階段的特征進行聚合,并送入語義分割結果生成模塊中形成預測結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110295657.5/2.html,轉載請聲明來源鉆瓜專利網。





