[發(fā)明專利]一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法在審
| 申請?zhí)枺?/td> | 201911064946.3 | 申請日: | 2019-11-04 |
| 公開(公告)號: | CN110796105A | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計(jì))人: | 周勇;楊勁松;趙佳琦;夏士雄;姚睿;劉兵;杜文亮;王秋 | 申請(專利權(quán))人: | 中國礦業(yè)大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06K9/48;G06T7/12;G06N3/04;G06N3/08 |
| 代理公司: | 32249 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) | 代理人: | 陳國強(qiáng) |
| 地址: | 221000 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 遙感圖像 注意力機(jī)制 語義分割 雙流 融合 計(jì)算機(jī)視覺領(lǐng)域 多模態(tài)數(shù)據(jù)集 多模態(tài)數(shù)據(jù) 網(wǎng)絡(luò)解碼器 解碼特征 輸入特征 輸入圖像 特征融合 網(wǎng)絡(luò)結(jié)構(gòu) 遙感數(shù)據(jù) 優(yōu)化模型 語義信息 編碼器 多模態(tài) 深度圖 像素點(diǎn) 多層 構(gòu)建 尺度 網(wǎng)絡(luò) | ||
本發(fā)明公開了一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法,屬于計(jì)算機(jī)視覺領(lǐng)域。具體實(shí)現(xiàn):1)使用遙感圖像多模態(tài)數(shù)據(jù)集,包括遙感圖像及對應(yīng)的深度圖構(gòu)建雙流的語義分割網(wǎng)絡(luò):2)分別對輸入圖像提取不同尺度的特征,將獲取的特征進(jìn)行多層的特征融合;3)使用注意力機(jī)制對網(wǎng)絡(luò)解碼器部分的輸入特征與編碼器特征進(jìn)行豐富語義信息的提取,關(guān)注相似的像素點(diǎn)。本發(fā)明利用多模態(tài)的遙感數(shù)據(jù)集,結(jié)合雙流網(wǎng)絡(luò)結(jié)構(gòu),融合提取的特征,并使用注意力機(jī)制關(guān)注融合特征與解碼特征,從而優(yōu)化模型性能。
技術(shù)領(lǐng)域
本發(fā)明涉及遙感圖像處理技術(shù),尤其涉及一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法。
背景技術(shù)
遙感是一種非接觸、遠(yuǎn)距離的探測技術(shù)。一般來說,它是用來探測和識別目標(biāo)物體本身通過傳感器發(fā)射或反射的電磁波、紅外線和可見光。隨著遙感技術(shù)的飛速發(fā)展,特別是近年來高分辨率遙感影像的出現(xiàn),這項(xiàng)技術(shù)已成為及時(shí)進(jìn)行全球或區(qū)域地球觀測的重要手段。遙感影像的規(guī)模也在逐步擴(kuò)大,影像內(nèi)容提供的信息也越來越豐富。
圖像語義分割的目標(biāo)是用相應(yīng)的類標(biāo)記圖像中的每個(gè)像素。它是像素級的圖像分類。因?yàn)槲覀円A(yù)測圖像中的每個(gè)像素,所以這個(gè)任務(wù)通常被稱為密集預(yù)測。值得注意的是,與之前的賦值不同,語義分割的預(yù)期輸出不僅僅是標(biāo)簽和邊界框參數(shù)。輸出本身是一個(gè)高分辨率圖像(通常與輸入圖像的大小相同),其中每個(gè)像素被分類為一個(gè)特定的類。
目前,語義分割是計(jì)算機(jī)視覺的關(guān)鍵問題之一。在宏觀意義上,語義分割是一項(xiàng)高層次的工作,它為場景理解鋪平了道路。作為計(jì)算機(jī)視覺的核心問題,場景理解變得越來越重要。應(yīng)用場景需要從圖像中推斷出相關(guān)的知識或語義(即從具體到抽象的過程)。這些應(yīng)用包括自動(dòng)駕駛儀、人機(jī)交互、計(jì)算攝影、圖像搜索引擎、增強(qiáng)現(xiàn)實(shí)等。應(yīng)用各種傳統(tǒng)的計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù),解決了這些問題。盡管這些方法普遍存在,但深度學(xué)習(xí)的革命已經(jīng)在相關(guān)領(lǐng)域發(fā)生了巨大的變化。因此,許多計(jì)算機(jī)視覺問題,包括語義分割,開始使用深度結(jié)構(gòu)來解決,通常是卷積神經(jīng)網(wǎng)絡(luò)cnn,這比傳統(tǒng)方法更準(zhǔn)確和高效。
隨著傳感器技術(shù)的飛速發(fā)展,人們對利用深度信息進(jìn)行語義分割產(chǎn)生了濃厚的興趣。深度數(shù)據(jù)變得廣泛,因?yàn)樗苋菀妆徊东@。毫無疑問,深度信息可以改善分割,因?yàn)樗东@的幾何信息不是通過顏色通道獲得的。在中,深度數(shù)據(jù)作為除了rgb通道作為輸入之外的第四個(gè)通道添加到網(wǎng)絡(luò)中。這種直接的分割方法提高了分割性能。
盡管深度數(shù)據(jù)有助于從場景中分離對象,但它的語義信息比顏色少得多。此外,深度和顏色通道之間的相關(guān)性很小,這促使更好的方法使用深度來增強(qiáng)語義分割。
此外,現(xiàn)有的基于遙感圖像的語義分割仍存在以下問題:
(1)遙感數(shù)據(jù)集中各類圖像在角度、顏色、大小等方面存在顯著差異,類間也存在實(shí)質(zhì)性的相似性。例如,遙感圖像類別之間的邊緣區(qū)分是不可見的,比如樹木和建筑物的陰影會產(chǎn)生遮擋問題。而遙感圖像中存在著大量的建筑物、樹木等小目標(biāo)。從現(xiàn)有的深度學(xué)習(xí)模型中學(xué)習(xí)魯棒特征表示提出了新的挑戰(zhàn),這是提高遙感圖像語義分割精度的關(guān)鍵。
(2)隨著傳感器技術(shù)的發(fā)展,遙感圖像的其他數(shù)據(jù)采集在語義分割中沒有得到充分的利用。
(3)現(xiàn)有的語義分割方法在大范圍遙感圖像小目標(biāo)特征提取方面存在一些不足。這使得有效提取遙感圖像中小目標(biāo)的特征信息成為可能。
發(fā)明內(nèi)容
發(fā)明目的:為了克服現(xiàn)有技術(shù)中存在的不足,本發(fā)明提供一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法,該方法基于RGB圖和深度圖的雙流語義分割網(wǎng)絡(luò),提取不同尺度的深度圖特征,融合深度特征和RGB特征,使用注意力關(guān)注相似的像素,以優(yōu)化網(wǎng)絡(luò)的分割性能。
技術(shù)方案:為實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
一種基于多模態(tài)數(shù)據(jù)融合的遙感圖像語義分割方法,包括如下步驟:
(1)構(gòu)建雙流語義分割網(wǎng)絡(luò),包括如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學(xué),未經(jīng)中國礦業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911064946.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 文本主題提取方法、裝置及存儲介質(zhì)
- 一種基于多樣圖注意力機(jī)制的知識圖譜嵌入方法
- 一種基于注意力機(jī)制的膠囊網(wǎng)絡(luò)多特征提取方法
- 一種基于多級注意力網(wǎng)絡(luò)的倉儲糧堆溫度預(yù)測方法及裝置
- 一種基于字符與自注意力機(jī)制的層次文本分類方法及中文文本分類方法
- 基于注意力機(jī)制殘差網(wǎng)絡(luò)的攝像監(jiān)控狀態(tài)分類方法
- 一種基于雙階段注意力機(jī)制生成對抗網(wǎng)絡(luò)的金融時(shí)間序列預(yù)測方法
- 文字識別方法、裝置、電子設(shè)備及存儲介質(zhì)
- 基于通道增強(qiáng)的雙注意力生成對抗網(wǎng)絡(luò)及圖像生成方法
- 一種基于多尺度深度監(jiān)督的反向注意力模型
- 一種圖像語義分割方法及裝置
- 圖像語義分割模型的訓(xùn)練方法、可讀存儲介質(zhì)及電子設(shè)備
- 道路場景語義分割方法及裝置
- 語義分割模型的訓(xùn)練方法、語義分割方法及裝置
- 一種語義分割網(wǎng)絡(luò)訓(xùn)練、圖像語義分割方法及裝置
- 語義分割網(wǎng)絡(luò)的訓(xùn)練方法、訓(xùn)練裝置、服務(wù)器和存儲介質(zhì)
- 一種3D語義分割的方法及終端
- 語義分割模型訓(xùn)練方法及裝置、圖像語義分割方法及裝置
- 一種從虛擬到現(xiàn)實(shí)的無監(jiān)督遙感圖像語義分割方法及模型
- 一種圖像語義分割方法、裝置及存儲介質(zhì)





