[發(fā)明專利]基于注意力機制的輕量化語義分割模型構(gòu)建方法有效
| 申請?zhí)枺?/td> | 202110638043.2 | 申請日: | 2021-06-08 |
| 公開(公告)號: | CN113240683B | 公開(公告)日: | 2022-09-20 |
| 發(fā)明(設(shè)計)人: | 張霖;楊源 | 申請(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06N3/04;G06N3/08 |
| 代理公司: | 北京睿智保誠專利代理事務(wù)所(普通合伙) 11732 | 代理人: | 王燦;周新楣 |
| 地址: | 100089*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 注意力 機制 量化 語義 分割 模型 構(gòu)建 方法 | ||
本發(fā)明公開了基于注意力機制的輕量化語義分割模型構(gòu)建方法,應(yīng)用于圖像處理技術(shù)領(lǐng)域,給定圖像I,對應(yīng)的真實標(biāo)簽圖GT,構(gòu)成訓(xùn)練集:步驟1、模型建立;步驟2、模型訓(xùn)練;步驟3、模型測試,將測試集圖像輸入到訓(xùn)練好的網(wǎng)絡(luò)模型中,得到測試結(jié)果。本發(fā)明實現(xiàn)圖像分割準(zhǔn)確率和分割速度的提升;分割過程不容易過擬合;效率高,便于實際部署;在標(biāo)注數(shù)據(jù)的不足的情況下,對其進行快速訓(xùn)練,以進一步提高性能。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其涉及基于注意力機制的輕量化語義分割模型構(gòu)建方法。
背景技術(shù)
圖像分割是指根據(jù)圖像內(nèi)容對指定區(qū)域進行標(biāo)記的計算機視覺任務(wù),具體來講,圖像語義分割的目的在于標(biāo)記圖像中的每一點像素,并將像素和其對應(yīng)的類別對應(yīng)起來。在場景理解、醫(yī)療圖像、無人駕駛等方面具有重要的實際應(yīng)用價值。
經(jīng)典語義分割模型包括:
全卷積神經(jīng)網(wǎng)絡(luò)(FCN),作為深度學(xué)習(xí)中的語義分割網(wǎng)絡(luò)的經(jīng)典制作,借鑒了傳統(tǒng)的分類網(wǎng)絡(luò)結(jié)構(gòu),而又區(qū)別于傳統(tǒng)的分類網(wǎng)絡(luò),將傳統(tǒng)分類網(wǎng)絡(luò)的全連接層轉(zhuǎn)化為卷積層。然后通過反卷積(deconvolution)進行上采樣,逐步恢復(fù)圖像的細節(jié)信息并擴大特征圖的尺寸。在恢復(fù)圖像的細節(jié)信息過程中,F(xiàn)CN一方面通過可以學(xué)習(xí)的反卷積來實現(xiàn),另一方面,采用了跳躍連接(skip-connection)的方式,將下采樣過程中得到的特征信息與上采樣過程中對應(yīng)的特征圖相融合。但是,F(xiàn)CN存在著諸如語義信息丟失,缺乏對于像素之間關(guān)聯(lián)性研究的技術(shù)缺陷。
SegNet,采用了FCN的編碼-解碼的架構(gòu),但是與FCN不同的是,SegNet沒有使用跳躍連接結(jié)構(gòu),并且在上采樣的過程中,不是使用反卷積,而是使用了unpooling的操作。在解碼器中使用那些存儲的索引來對相應(yīng)特征圖進行去池化操作。從而保證了高頻信息的完整性,但是對于較低分辨率的特征圖進行unpooling時,同樣會忽略像素近鄰之間的信息。
deeplab系列是由Google團隊設(shè)計的一系列的語義分割網(wǎng)絡(luò)模型,采用了空洞卷積和CRF的處理。利用空洞卷積在不增加參數(shù)的情況下擴大了感受野的范圍。而CRF的后期處理可以更好的提升語義分割的準(zhǔn)確率。deeplabv2在v1的基礎(chǔ)之上增加了ASPP(空洞空間金字塔池化)模塊。
PSPnet,全稱為Pyramid Scene Parsing Network,它采用的金字塔池化模塊,來融合圖像的上下文信息,注重像素之間的關(guān)聯(lián)性。利用預(yù)訓(xùn)練模型提取特征后,將采用金字塔池化模塊提取圖像的上下文信息,并將上下文信息與提取的特征進行堆疊后,經(jīng)過上采樣得到最終的輸出。而特征堆疊的過程其實就是講目標(biāo)的細節(jié)特征和全局特征融合的過程,這里的細節(jié)特征指的是淺層特征,也就是淺層網(wǎng)絡(luò)所提取到的特征,而全局特征指的是深層的特征,也就是常常說的上下文特征。對應(yīng)的就是深層網(wǎng)絡(luò)提取的特征。
上述網(wǎng)絡(luò)模型層數(shù)較多,模型參數(shù)量較大,隨著技術(shù)的發(fā)展和硬件條件的不斷進步,基于像素級別的分割才是圖像分類的主流方向。
因此,引入輕量化模型進行語義分割,提出一種基于注意力機制的輕量化語義分割模型構(gòu)建方法,實現(xiàn)圖像分割準(zhǔn)確率和分割速度的提升,是本領(lǐng)域技術(shù)人員亟需解決的問題技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種基于注意力機制的輕量化語義分割模型構(gòu)建方法,實現(xiàn)圖像分割準(zhǔn)確率和分割速度的提升。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
基于注意力機制的輕量化語義分割模型構(gòu)建方法,包括以下步驟:
給定圖像I,對應(yīng)的真實標(biāo)簽圖GT,構(gòu)成訓(xùn)練集:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110638043.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





