[發明專利]一種基于漸進指導融合互補網絡的室內場景圖像處理方法在審
| 申請號: | 202110557921.8 | 申請日: | 2021-05-21 |
| 公開(公告)號: | CN113298814A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 周武杰;楊恩泉;葉寧;雷景生;萬健;甘興利;錢小鴻;許彩娥;強芳芳 | 申請(專利權)人: | 浙江科技學院 |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06T9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310023 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 漸進 指導 融合 互補 網絡 室內 場景 圖像 處理 方法 | ||
本發明公開了一種基于漸進指導融合互補網絡的室內場景圖像處理方法。本發明包括訓練階段和測試階段兩個過程;1_1選取原始室內場景圖像及對應的深度圖像和真實語義理解圖像,構成訓練集;1_2構建卷積神經網絡;1_3將訓練集進行數據增強,獲得初始輸入圖像對,并輸入到卷積神經網絡進行處理,得到對應的語義理解預測圖;1_4計算語義理解預測圖與對應的語義理解預測圖構成之間的損失函數值;1_5重復執行1_3和1_4,獲得卷積神經網絡分類訓練模型;將待語義理解的室內場景圖像和對應的深度圖像輸入到卷積神經網絡分類訓練模型中,得到對應的預測語義理解圖像。本發明可有效地減少噪聲深度測量的影響,能夠更好的使信息互補,完成特征提取。
技術領域
本發明涉及一種深度學習的處理方法,尤其是涉及一種基于漸進指導融合互補網絡的室內場景圖像處理方法。
背景技術
隨著人工智能,計算機視覺的發展,語義理解在實際的社會發展中有著越來越多的應用,一目了然的視覺場景理解是人腦最神奇的功能之一。為了對這種能力進行建模,語義理解旨在根據圖像的語義為圖像上的每個像素提供一個類別標簽。這個問題是計算機視覺中最具挑戰性的任務之一,已經引起了計算機視覺界的廣泛關注。
目前,最常用的語義理解方法包括支持向量機、隨機森林等算法。這些算法主要集中在二分類任務上,用于檢測和識別特定物體,如室內地板、桌子和床。這些傳統的機器學習方法往往需要通過高復雜度的特征來實現,而使用深度學習來對交通場景進行語義理解簡單方便,更重要的是,卷積神經網絡(CNN)最近在各種分類任務(如語義分段)中取得了突破。CNN已被證明是功能強大的視覺模型,可產生要素層次結構。該模型的關鍵成功主要在于其對復雜視覺場景的一般建模能力。
采用深度學習的語義理解方法,直接進行像素級別端到端(end-to-end)的語義理解,其只需要將訓練集中的圖像輸入進模型框架中訓練,得到權重與模型,即可在測試集進行預測。卷積神經網絡的強大之處在于它的多層結構能自動學習特征,并且可以學習到多個層次的特征。目前,基于深度學習語義理解的方法分為兩種,第一種是編碼-譯碼架構。編碼過程通過池化層逐漸減少位置信息、抽取抽象特征;譯碼過程逐漸恢復位置信息。一般譯碼與編碼間有直接的連接。第二種架構是帶孔卷積(dilated convolutions),拋棄了池化層,通過帶孔卷積的方式擴大感知域,較小值的帶孔卷積感知域較小,學習到一些部分具體的特征;較大值的帶孔卷積層具有較大的感知域,能夠學習到更加抽象的特征,這些抽象的特征對物體的大小、位置和方向等魯棒性更好。當然還有多尺度預測,特征混合等方法。此外,深度圖像包含更多的空間結構信息。它與RGB信息在許多視覺任務上相互補充。利用深度來補充外觀信息(即RGB)可能會改善語義理解的性能,因為深度通道具有與RGB通道互補的信息,并編碼場景的結構信息。可以使用低成本RGB-D傳感器輕松捕獲深度通道。通常,可以基于對象的顏色和紋理屬性來識別它們。
現有的語義理解方法大多采用深度學習的方法,利用卷積層與池化層相結合的模型較多,然而單純利用池化操作與卷積操作獲得的特征圖單一且不具有代表性,從而會導致得到的圖像的特征信息減少,另外,深度圖質量低,RGB和深度數據顯示不同的特征。如何有效地識別它們的差異并將兩種類型的信息統一為一種有效的語義理解表示方法,并以最高質量解碼還原仍然是一個懸而未決的問題,最終導致還原的效果信息比較粗糙,分割精度低。
發明內容
本發明所要解決的技術問題是提供一種基于漸進指導融合互補網絡的室內場景圖像處理方法,其編碼充分利用RGB外觀細節信息和深度圖的空間結構信息,又以高質量解碼,分割效率高,且分割準確度高。
為解決上述技術問題,本發明采用以下技術方案:
包括訓練階段和測試階段兩個過程;
所述的訓練階段過程的具體步驟為:
步驟1_1:選取Q幅原始室內場景圖像及每幅原始室內場景圖像對應的深度圖像和真實語義理解圖像,并構成訓練集;利用獨熱編碼方法將真實語義理解圖像轉換為若干幅獨熱編碼圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江科技學院,未經浙江科技學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110557921.8/2.html,轉載請聲明來源鉆瓜專利網。





