[發明專利]一種基于RGB-D的室內場景逐像素語義分類器構造方法及系統有效
| 申請號: | 202110498856.6 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113222003B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 周鋒;張鳳全;蔡興泉 | 申請(專利權)人: | 北方工業大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V20/70;G06V10/80;G06V10/40;G06V10/26;G06V10/82;G06N3/045;G06N3/082 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 江亞平 |
| 地址: | 100144 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 rgb 室內 場景 像素 語義 分類 構造 方法 系統 | ||
1.一種基于RGB-D的室內場景逐像素語義分類器構造方法,其特征在于,包括:
步驟S1:對室內場景進行圖像采集,獲取RGB數據和Depth數據;
步驟S2:定義所述圖像中的物體類別,并對其每一個像素進行類別標注;
步驟S3:將所述RGB數據和Depth數據,分別輸入特征提取模塊,同時將所述RGB數據輸入深度估計模塊,利用該模塊對RGB數據特征提取過程進行監督,得到對應的特征frgb和fdepth;
步驟S4:將所述frgb和所述fdepth輸入尺度感知模塊,以選擇合適的尺度特征信息,并得到尺度感知特征和具體包括:
步驟S41:利用特征金字塔對所述特征frgb和fdepth進行多尺度特征提取,得到和
步驟S42:將所述和進行融合,得到融合特征并通過卷積網絡得到多通道尺度權重圖;
步驟S43:對所述多通道尺度權重圖進行特征選擇,分別得到尺度感知特征和
步驟S5:將所述和所述分別輸入自注意力機制模塊,進行感受野擴大化,獲得特征和
步驟S6:將所述和所述輸入模態自適應模塊,計算模態自適應權重,利用所述模態自適應權重,融合所述和所述得到所述圖像的逐像素語義分類,具體包括:
步驟S61:構建所述模態自適應模塊,采用4層網絡結構cat'-conv'-sm'-mul',其中,cat'層用于將以及兩種特征融合在一起,形成融合特征
步驟S62:將所述融合特征輸入conv'層,得到map2*h*w權重掩碼圖;
步驟S63:利用sm'層對所述權重掩碼圖進行正則化,并按照通道進行分離,分別得到以及
步驟S64:利用mul'層將所述權重掩碼圖一個通道作用于上,得到Prgb;另外一個通道的所述權重掩碼圖作用于上,得到Pdepth;將二者進行相加,得到所述圖像的逐像素分類結果。
2.根據權利要求1所述的基于RGB-D的室內場景逐像素語義分類器構造方法,其特征在于,所述步驟S3:將所述RGB數據和Depth數據,分別輸入特征提取模塊,同時將所述RGB數據輸入深度估計模塊,利用該模塊對RGB數據特征提取過程進行監督,得到對應的特征frgb和fdepth,具體包括:
將所述RGB數據和Depth數據,分別輸入RGB特征提取模塊和Depth特征提取模塊進行特性提取,并在對所述RGB特征提取時,同時將所述RGB數據輸入深度估計模塊,利用該模塊對RGB數據特征提取過程進行監督,分別得到對應的特征frgb和fdepth。
3.根據權利要求1所述的基于RGB-D的室內場景逐像素語義分類器構造方法,其特征在于,所述步驟S5:將所述和所述輸入自注意力機制模塊,進行感受野擴大化,分別獲得特征和特征具體包括:
將所述和所述分別輸入所述自注意力機制模塊,獲得特征和特征其中,所述自注意力機制模塊如下公式(3)~(5)所示;
其中,c表示的特征通道數;為特征,N=h*w;λ和β為權值參數。
4.一種基于RGB-D的室內場景逐像素語義分類器構造系統,其特征在于,包括下述模塊:
圖像采集模塊,用于對室內場景進行圖像采集,獲取RGB數據和Depth數據;
類別標注模塊,用于定義所述圖像中的物體類別,并對其每一個像素進行類別標注;
特征提取模塊,用于將所述RGB數據和Depth數據,分別輸入特征提取模塊,同時將所述RGB數據輸入深度估計模塊,利用該模塊對RGB數據特征提取過程進行監督,得到對應的特征frgb和fdepth;
尺度感知特征提取模塊,用于將所述frgb和所述fdepth輸入尺度感知模塊,以選擇合適的尺度特征信息,并得到尺度感知特征和具體包括:
步驟S41:利用特征金字塔對所述特征frgb和fdepth進行多尺度特征提取,得到和
步驟S42:將所述和進行融合,得到融合特征并通過卷積網絡得到多通道尺度權重圖;
步驟S43:對所述多通道尺度權重圖進行特征選擇,分別得到尺度感知特征和
注意力特征提取模塊,用于將所述和所述分別輸入自注意力機制模塊,進行感受野擴大化,獲得特征和
圖像分類模塊,用于將所述和所述輸入模態自適應模塊,計算模態自適應權重,利用所述模態自適應權重,融合所述和所述得到所述圖像的逐像素語義分類,具體包括:
步驟S61:構建所述模態自適應模塊,采用4層網絡結構cat'-conv'-sm'-mul',其中,cat'層用于將以及兩種特征融合在一起,形成融合特征
步驟S62:將所述融合特征輸入conv'層,得到map2*h*w權重掩碼圖;
步驟S63:利用sm'層對所述權重掩碼圖進行正則化,并按照通道進行分離,分別得到以及
步驟S64:利用mul'層將所述權重掩碼圖一個通道作用于上,得到Prgb;另外一個通道的所述權重掩碼圖作用于上,得到Pdepth;將二者進行相加,得到所述圖像的逐像素分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北方工業大學,未經北方工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110498856.6/1.html,轉載請聲明來源鉆瓜專利網。





