[發(fā)明專利]一種基于多分辨率輸入與金字塔膨脹卷積的語義分割方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811353131.2 | 申請(qǐng)日: | 2018-11-14 |
| 公開(公告)號(hào): | CN109598269A | 公開(公告)日: | 2019-04-09 |
| 發(fā)明(設(shè)計(jì))人: | 龐彥偉;路文超 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06K9/34 | 分類號(hào): | G06K9/34 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積 支路 金字塔 多分辨率 提取特征 網(wǎng)絡(luò)架構(gòu) 語義分割 預(yù)測(cè)結(jié)果 降采樣 雙支路 膨脹 尺度 輸入圖像分辨率 低分辨率圖像 高分辨率圖像 空間位置信息 特征融合模塊 分割結(jié)果 兩條支路 模塊組成 輸入圖像 分辨率 池化 像素 粗糙 輸出 分類 優(yōu)化 | ||
本發(fā)明涉及一種基于多分辨率輸入與金字塔膨脹卷積的語義分割方法,包括下列步驟:確定基礎(chǔ)雙支路網(wǎng)絡(luò)架構(gòu),用于從不同分辨率的輸入圖像中提取不同尺度的特征:該基礎(chǔ)雙支路網(wǎng)絡(luò)架構(gòu)的兩個(gè)支路的輸入圖像分辨率不同,均由多個(gè)卷積模塊和降采樣模塊組成,卷積模塊包含多個(gè)卷積層,用于提取特征;降采樣模塊由池化層組成;輸入低分辨率圖像的支路的卷積層較多,用于提取特征并進(jìn)行分類,輸出粗糙的預(yù)測(cè)結(jié)果;輸入高分辨率圖像的支路的卷積層較少,用于優(yōu)化預(yù)測(cè)結(jié)果的空間位置信息,提升分割結(jié)果的像素精度。設(shè)計(jì)金字塔膨脹卷積模塊,用于提取不同尺度的特征;設(shè)計(jì)兩條支路特征融合模塊。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺、語義分割、深度學(xué)習(xí)領(lǐng)域,特別涉及一種基于多分辨率輸入與金字塔膨脹卷積的語義分割方法。
背景技術(shù)
語義分割是圖像理解中的重要技術(shù)手段,是計(jì)算機(jī)視覺中的一項(xiàng)重要研究內(nèi)容。圖像是由很多像素組成的,語義分割就是將圖像中的所有像素按照其表達(dá)的語義含義進(jìn)行不同的分類分組,也就是像素級(jí)分類。相比于目標(biāo)識(shí)別和物體檢測(cè),語義分割可以實(shí)現(xiàn)對(duì)圖像更加細(xì)致的理解。鑒于語義分割的稠密預(yù)測(cè)性,語義分割在很多實(shí)際應(yīng)用領(lǐng)域中都有著巨大的作用,比如自動(dòng)駕駛系統(tǒng)中的路面場(chǎng)景理解,無人機(jī)系統(tǒng)中的著陸點(diǎn)判斷以及可穿戴設(shè)備中的圖像理解等。
自深度學(xué)習(xí)發(fā)展以來,基于深度學(xué)習(xí)的圖像算法層出不窮。Long等人提出了全卷積神經(jīng)網(wǎng)絡(luò)(FCN),為將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到語義分割領(lǐng)域中打下了基礎(chǔ)。FCN提出后,廣大研究學(xué)者均在此基礎(chǔ)上不斷改進(jìn),發(fā)展出一系列基于深度學(xué)習(xí)的語義分割算法。Badrinarayana等人提出了SegNet,采用對(duì)稱的編碼-解碼架構(gòu),完善了語義分割中常用的編解碼架構(gòu);Chen等人提出了DeepLab,利用空洞空間金字塔池化增大卷積核感受野,聚合不同區(qū)域的上下文信息,并在網(wǎng)絡(luò)末端加入全連接條件隨機(jī)場(chǎng)用于銳化分割結(jié)果。Lin等人提出了RefineNet,利用長距離殘差連接對(duì)不同尺度的特征進(jìn)行融合,充分利用底層特征的邊緣優(yōu)勢(shì)和高層特征的語義優(yōu)勢(shì),實(shí)現(xiàn)用低層空間信息優(yōu)化高層語義信息,進(jìn)而提升網(wǎng)絡(luò)分割精度。這些語義分割算法在分割精度方面有了較大的進(jìn)步,但這些算法在分割效率方面依然比較低,而且這些算法對(duì)不同尺度目標(biāo)的分割精度比較差。
輸入分辨率是影響網(wǎng)絡(luò)分割效率的一個(gè)重要因素。將輸入圖像壓縮作為網(wǎng)絡(luò)輸入可以大大提高網(wǎng)絡(luò)的分割效率,但會(huì)損失大量的空間細(xì)節(jié)信息,使網(wǎng)絡(luò)的分割像素精度降低。用高分辨率圖像作為網(wǎng)絡(luò)輸入可以保留所有的空間細(xì)節(jié)信息,但會(huì)大大降低網(wǎng)絡(luò)的分割效率。同時(shí),固定的卷積層和池化層會(huì)使各卷積層的感受野單一,關(guān)注的區(qū)域單一,這會(huì)限制網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的分割精度,使網(wǎng)絡(luò)不能精確地分割不同尺度的目標(biāo)。
發(fā)明內(nèi)容
針對(duì)上述輸入分辨率對(duì)網(wǎng)絡(luò)的效率限制問題和固定感受野對(duì)網(wǎng)絡(luò)處理不同尺度目標(biāo)的精度限制問題,本發(fā)明提供一種基于多分辨率輸入與金字塔膨脹卷積的語義分割方法。本發(fā)嗎設(shè)計(jì)一種基于多分辨率輸入的語義分割網(wǎng)絡(luò)結(jié)構(gòu),充分利用低分辨率圖像處理效率高,高分辨率圖像空間細(xì)節(jié)信息保存好的優(yōu)點(diǎn),在保持網(wǎng)絡(luò)分割精度的同時(shí)提升網(wǎng)絡(luò)分割效率并設(shè)計(jì)一種金字塔膨脹卷積模塊。該模塊融合多個(gè)不同膨脹率的卷積用于提取不同尺寸區(qū)域內(nèi)的特征,提升網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的分割精度。技術(shù)方案如下:
第一步:確定基礎(chǔ)雙支路網(wǎng)絡(luò)架構(gòu),用于從不同分辨率的輸入圖像中提取不同尺度的特征:該基礎(chǔ)雙支路網(wǎng)絡(luò)架構(gòu)的兩個(gè)支路的輸入圖像分辨率不同,均由多個(gè)卷積模塊和降采樣模塊組成,卷積模塊包含多個(gè)卷積層,用于提取特征;降采樣模塊由池化層組成;輸入低分辨率圖像的支路的卷積層較多,用于提取特征并進(jìn)行分類,輸出粗糙的預(yù)測(cè)結(jié)果;輸入高分辨率圖像的支路的卷積層較少,用于優(yōu)化預(yù)測(cè)結(jié)果的空間位置信息,提升分割結(jié)果的像素精度。
第二步:設(shè)計(jì)金字塔膨脹卷積模塊,用于提取不同尺度的特征:利用4個(gè)不同膨脹率的卷積核的不同感受野提取不同尺寸區(qū)域的特征,然后通過級(jí)聯(lián)操作,融合這4個(gè)不同尺寸區(qū)域內(nèi)的特征,從而讓網(wǎng)絡(luò)能提取到多尺度的特征,提升網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的分割效果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811353131.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 多分辨率表示的誤差擴(kuò)散
- 圖像處理方法、裝置及程序
- 一種多分辨率退化字符自適應(yīng)識(shí)別系統(tǒng)及方法
- 一種多分辨率退化字符識(shí)別裝置
- 一種面向普適終端的三維網(wǎng)格模型連續(xù)多分辨率編碼方法
- 多分辨率翼型設(shè)計(jì)方法和系統(tǒng)
- 一種基于多分辨率模型框架的仿真系統(tǒng)實(shí)現(xiàn)方法
- 一種基于多級(jí)分辨率平衡網(wǎng)絡(luò)的紅外目標(biāo)檢測(cè)方法
- 多分辨率特征交叉融合的圖像壓縮感知重構(gòu)系統(tǒng)及其方法
- 一種基于多分辨率殘差網(wǎng)絡(luò)的圖像分割方法





