[發(fā)明專利]融合局部與全局特征的快速語義分割網絡和語義分割方法在審
| 申請?zhí)枺?/td> | 202310086646.5 | 申請日: | 2023-01-17 |
| 公開(公告)號: | CN116129119A | 公開(公告)日: | 2023-05-16 |
| 發(fā)明(設計)人: | 徐國平;冷雪松;王霞霞;廖文濤;張炫;吳興隆 | 申請(專利權)人: | 武漢工程大學 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V20/70;G06V10/82;G06V10/42;G06V10/44;G06V10/80;G06N3/045;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 樊凡 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 局部 全局 特征 快速 語義 分割 網絡 方法 | ||
本發(fā)明提供了融合局部與全局特征的快速語義分割網絡和語義分割方法,通過雙分支結構分別提取輸入圖像的局部信息和全局信息,使其更好地融合得到包含較多信息的分割特征,解決了局部和全局特征難以交互的問題,有效實現了提高分割效率和整體性能的功能。本發(fā)明提出了一種新的多尺度特征融合模塊,利用Transformer的語境信息以及卷積的局部表示特征;可以同時處理局部以及全局特征信息,在快速的醫(yī)學圖像分割中展示出了非常優(yōu)秀的性能。本發(fā)明在提取全局特征與局部特征的同時降低了計算時的復雜度,在保證分割結果的同時減少了網絡訓練所需的時間,實現了在保證分割速度的同時提高分割性能的功能。
技術領域
本發(fā)明屬于深度學習技術領域,具體涉及融合局部與全局特征的快速語義分割網絡和語義分割方法。
背景技術
圖像分割在醫(yī)學圖像分析中起著重要的作用,特別是在臨床診斷中被廣泛用于解剖結構的定量分析。隨著深度學習技術的發(fā)展,卷積神經網絡在醫(yī)學圖像分割方面取得了實質性的進展,特別是全卷積網絡和它的變體,比如UNet、DeepLab這些已經成為了實際上的選擇?;谶@些方法,許多工作在醫(yī)學應用方面已經取得了很大的進展,比如說胸部CT血管分割,MRI心臟分割以及淋巴結分割等。
早期關于目標檢測以及圖像分割的研究時已經顯示出了多尺度特征融合的效率。然而,現在仍不是特別清楚能否可以通過整合來自與卷積層以及Transformer層的特征來進一步的提高分割性能。所以,我們提出了一個多尺度特征融合模塊。對于低分辨率的特征圖,我們使用了一個線性瓶頸結構以及插值操作,與之前的輸出相比,這樣的操作可以得到相同的維度和分辨率的特征圖。比如說分辨率為原圖像1/32的輸入在線性瓶頸結構后經過上采樣操作會具有相同的尺寸。
盡管基于FCN的方法具有特殊的表示能力,但是由于卷積操作的局部接受能力,它們捕獲全局的上下文信息以及遠程依賴關系的能力受到了限制。這種限制在捕獲多尺度上下文信息時會導致可變形狀和尺度結構的次優(yōu)分割。以往的研究都試圖通過DeepLab中的擴展卷積,PSPNet中的特征金字塔池化,UNet中的自注意力機制等來減輕這一問題。然而,在醫(yī)學圖像分割任務中,仍然沒有研究能夠完全提取出全局語境特征。
基于Transformer的模型在NLP領域的序列到序列的建模中被提出,并在各種任務中都取得了先進的成果。Transformer中的自注意力機制使得它們可以學習遠程依賴關系并建立序列之間的全局關系。Transformer在計算機視覺方面的圖像分類任務中也取得了最先進的表現。后來,人們提出了許多基于Transformer的語義分割方面的工作,比如SETR,Swin?Transformer,TransUNet,Swin-UNet,DS-TransUNet,TransFuse,VOLO等。然而,這種基于Transformer的方法,在對遠程依賴關系建模時,存在的很大的計算量以及空間結構非常復雜。這對醫(yī)學圖像處理中的實時醫(yī)療診斷,比如說放療,有極大的阻礙。
發(fā)明內容
本發(fā)明要解決的技術問題是:提供融合局部與全局特征的快速語義分割網絡和語義分割方法,用于提高分割圖像的性能。
本發(fā)明為解決上述技術問題所采取的技術方案為:一種融合局部特征與全局特征的快速語義分割網絡,包括第一分支、第二分支和MSFFM多尺度融合模塊;第一分支為CNN分支,包括多個卷積層,用于提取圖像的局部特征信息;第二分支為Transformer分支,包括LN層、多個Outlooker注意力層和一系列轉換器MLP,用于通過下采樣和自注意力機制提取圖像的全局特征信息和上下文特征信息;第一分支和第二分支輸出的特征信息通過多個雙邊連接以交互的方式融合;第二分支的每次計算輸出與第一分支的輸出進行交互,用于讓第一分支更好的學習全局特征且不增加計算復雜度;第二分支的每次計算輸出連接到MSFFM多尺度融合模塊,MSFFM多尺度融合模塊用于融合通過交互方式融合后的第一分支和第二分支輸出的特征信息,對信息做多尺度的融合操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢工程大學,未經武漢工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310086646.5/2.html,轉載請聲明來源鉆瓜專利網。





