[發明專利]一種基于先驗結構的語義分割方法及裝置在審
| 申請號: | 202210290056.X | 申請日: | 2022-03-23 |
| 公開(公告)號: | CN114882212A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 林方堅;梁展豪;何軍軍;鄭淼;田生偉;陳愷 | 申請(專利權)人: | 上海人工智能創新中心 |
| 主分類號: | G06V10/26 | 分類號: | G06V10/26;G06V10/42;G06V10/80;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 成丹;耿慧敏 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 先驗 結構 語義 分割 方法 裝置 | ||
本申請提供一種基于先驗結構的語義分割方法及裝置,該方法包括:獲取待分割圖像,并提取待分割圖像的特征圖;獲取隨機生成的可學習的結構令牌;將特征圖和結構令牌輸入至少一層交互結構,輸出交互后結構令牌;交互結構用于從特征圖中提取結構特征賦予結構令牌;將交互后結構令牌輸入卷積塊,得到待分割圖像的分割圖。該方案可以保留圖像的結構特征,并直接預測分割圖。
技術領域
本發明屬于計算機視覺技術領域,特別涉及一種基于先驗結構的語義分割方法及裝置。
背景技術
語義分割(semantic segmentation)是計算機視覺中最重要的內容之一。目前語義分割的范式就只有一種,為逐像素分類范式。
從逐像素分類的視角來看語義分割這個任務,現有的基于逐像素分類的深度學習方法首先通過編碼器學習每個像素的表征,然后將每個像素分類到一個特定類別中,獲得語義掩碼。
但是,現有逐像素分類范式專注于提升圖像像素表示,融合上下文信息,最后使用逐像素分類則破壞了圖像原本的結構信息。
發明內容
本說明書實施例的目的是提供一種基于先驗結構的語義分割方法及裝置。
為解決上述技術問題,本申請實施例通過以下方式實現的:
第一方面,本申請提供一種基于先驗結構的語義分割方法,該方法包括:
獲取待分割圖像,并提取待分割圖像的特征圖;
獲取隨機生成的可學習的結構令牌;
將特征圖和結構令牌輸入至少一層交互結構,輸出交互后結構令牌;交互結構用于從特征圖中提取結構特征賦予結構令牌;
將交互后結構令牌輸入卷積塊,得到待分割圖像的分割圖。
在其中一個實施例中,交互結構包括交互模塊,交互模塊采用跨面提取模塊、自面提取模塊、點式提取模塊其中一種。
在其中一個實施例中,交互模塊采用跨面提取模塊;
將特征圖和結構令牌輸入至少一層交互結構,輸出交互后結構令牌,包括:
將特征圖通過映射網絡,生成第一鍵值矩陣和第一值矩陣;
將結構令牌通過映射網絡,生成第一查詢矩陣;
將第一查詢矩陣和第一鍵值矩陣相乘,得到對應每個通道的第一相似度矩陣;
將第一相似度矩陣和第一值矩陣相乘,得到第一融合特征圖;
將第一融合特征圖分裂,得到交互后特征圖和交互后結構令牌。
在其中一個實施例中,交互模塊采用自面提取模塊;
將特征圖和結構令牌輸入至少一層交互結構,輸出交互后結構令牌,包括:
將特征圖和結構令牌在通道維度上進行結合,得到第一結合后特征;
將第一結合后特征通過映射網絡,得到第二第一鍵值矩陣、第二值矩陣和第二查詢矩陣;其中,將映射網絡的通道數設置為特征圖通道數的3倍;
將第二查詢矩陣和第二鍵值矩陣相乘,得到第二相似度矩陣;
將第二相似度矩陣和第二值矩陣相乘,得到第二融合特征圖;
將第二融合特征圖分裂,得到交互后特征圖和交互后結構令牌。
在其中一個實施例中,交互模塊采用點式提取模塊;
將特征圖和結構令牌輸入至少一層交互結構,輸出交互后結構令牌,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海人工智能創新中心,未經上海人工智能創新中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210290056.X/2.html,轉載請聲明來源鉆瓜專利網。





