[發(fā)明專利]基于超像素的注意力機制生成語義分割方法在審
| 申請?zhí)枺?/td> | 202011011881.9 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112241959A | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計)人: | 李亮;李亞軍;王凱;彭俊杰 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 劉國威 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 像素 注意力 機制 生成 語義 分割 方法 | ||
本發(fā)明本發(fā)明涉及深度學(xué)習(xí)技術(shù)、語義分割,為提出低運算成本的生成語義分割方法。并解決網(wǎng)路計算量過大的問題,本發(fā)明采取的技術(shù)方案是,基于超像素的注意力機制生成語義分割方法,由原來的每個像素與其他所有的像素之間計算相似度,轉(zhuǎn)變?yōu)槊總€像素與其他所有的超像素之間計算相似度;通過空間注意力編碼和通道注意力機制編碼,將兩種編碼結(jié)果融合最終生成語義分割。本發(fā)明主要應(yīng)用于語義分割場合。
技術(shù)領(lǐng)域
本發(fā)明涉及深度學(xué)習(xí)技術(shù),特別是涉及深度學(xué)習(xí)中的超像素和注意力機制,結(jié)合超像素和注意力機制的特性完成語義分割。
背景技術(shù)
語義分割是計算機視覺中的一個基礎(chǔ)性的任務(wù),它的目的是對圖像中的像素進行分類,給圖像中的每一個像素分配一個類標(biāo)簽。近些年來計算機視覺對圖像分割的問題,越來越感興趣。越來越多的應(yīng)用場景需要精確且高效的分割技術(shù),例如自動駕駛,虛擬現(xiàn)實與智能機器人。
最早成功的應(yīng)用語義分割的深度學(xué)習(xí)技術(shù)是fully convolutional network(全卷積神經(jīng)網(wǎng)絡(luò))。該方法利用卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)的架構(gòu)來提取特征模塊,利用分類網(wǎng)絡(luò)模型(例如VGG-16網(wǎng)絡(luò)等)轉(zhuǎn)化為全卷積模型:將其全連接層轉(zhuǎn)換為全卷積層,來產(chǎn)生密集的像素級別的特征,然后利用高層次和低層次的語義特征相結(jié)合,生成像素級別的標(biāo)簽。該工作被視為里程碑式的進步,它闡述了CNN(卷積神經(jīng)網(wǎng)絡(luò))如何在語義分割的問題上進行端到端的訓(xùn)練。在之后的工作中,人們采用了空洞卷積的方法和多尺度的方法來獲取上下文語義信息,從而大幅度的提高了語義分割的精確度。
在2017年何凱明的論文Non-local Neural Networks(非局部神經(jīng)網(wǎng)絡(luò))中,提到了使用自注意力機制的方法來獲取全局的上下文信息。自注意力機制就是每個像素向量與其他的像素之間計算相似度,從而把全局范圍上的上下文信息引入到了局部位置。這個方法極大提高了語義分割的精確度。于此同時又引入了一個新的問題,要計算每個位置與其他所有的位置的語義信息來生成注意力圖,大大增加了網(wǎng)絡(luò)的計算量,因此這個問題成為本發(fā)明要解決的事情。
發(fā)明內(nèi)容
為克服現(xiàn)有技術(shù)的不足,解決網(wǎng)路計算量過大的問題,本發(fā)明旨在提出低運算成本的生成語義分割方法。為此,本發(fā)明采取的技術(shù)方案是,基于超像素的注意力機制生成語義分割方法,由原來的每個像素與其他所有的像素之間計算相似度,轉(zhuǎn)變?yōu)槊總€像素與其他所有的超像素之間計算相似度;通過空間注意力編碼和通道注意力機制編碼,將兩種編碼結(jié)果融合最終生成語義分割。
具體步驟如下:
步驟1:特征的提取:通過采用殘差網(wǎng)絡(luò)ResNet-101來進行特征的提取;該網(wǎng)絡(luò)一共101層網(wǎng)絡(luò)結(jié)構(gòu),其中在1,2,7層中采用步長為2的卷積或池化結(jié)構(gòu),所以最后得到的特征圖的大小為原圖的1/8倍;
步驟2:嵌入超像素:使用簡單線性聚類算法slic的方法來產(chǎn)生超像素,然后把超像素層嵌入到殘差網(wǎng)絡(luò)ResNet網(wǎng)絡(luò)結(jié)構(gòu)之后,通過超像素層對特征圖進行池化來獲取超像素特征,然后將池化后的超像素特征嵌入到注意力機制網(wǎng)絡(luò)中;
步驟3:注意力機制:注意力機制分為空間注意力機制和通道注意力機制;空間注意力機制通過計算每一個像素向量與其他所有位置的特征向量之間的相似度來獲取全局的上下文信息;通道注意力機制通過計算通道間的相似度,來獲取通道間的語義信息;然后將空間注意力機制的結(jié)果和通道注意力機制的結(jié)果相融合,最終得到語義分割的結(jié)果;
步驟2中,嵌入超像素:使用簡單線性聚類算法slic產(chǎn)生超像素,然后把超像素層嵌入到ResNet網(wǎng)絡(luò)結(jié)構(gòu)之后,通過超像素層對特征圖進行池化,然后得到每個超像素對應(yīng)的特征向量特征向量是超像素對應(yīng)的區(qū)域進行的平均池化:
其中表示在第i個超像素區(qū)域中第k個特征向量,Si表示第i個超像素區(qū)域中的像素的個數(shù);所以該池化操作被稱為超像素池化;
步驟3中:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011011881.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





