[發明專利]一種基于主動式學習的視頻語義分割方法有效
| 申請號: | 202110012126.0 | 申請日: | 2021-01-06 |
| 公開(公告)號: | CN112669325B | 公開(公告)日: | 2022-10-14 |
| 發明(設計)人: | 朱錦程;楊鑫;喬羽;樸海音;杜振軍 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06T7/10 | 分類號: | G06T7/10;G06N3/04 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 主動 學習 視頻 語義 分割 方法 | ||
1.一種基于主動式學習的視頻語義分割方法,包括圖像語義分割、基于主動式學習的數據篩選以及標簽傳播三個模塊;圖像語義分割模塊負責分割圖像結果和提取基于主動式學習的數據篩選模塊所需的高維特征;基于主動式學習的數據篩選模塊在圖像層面選取信息量較豐富的數據子集,并在像素層面上選擇需要標注的像素塊;標簽傳播模塊實現圖像到視頻任務的遷移,快速補全視頻的分割結果從而得到弱監督數據;
(1)圖像語義分割模塊
圖像語義分割模塊是由改良的全卷積網絡組成的,主體網絡結構采用Mobilenet v2的結構來提取RGB圖像的特征,得到高維特征信息后經過解碼器將特征通道數轉為類別數大小來達到像素分類的效果,最后經過上采樣得到和RGB圖像相同大小的帶有分類信息的語義標簽圖;
(1.1)圖像語義分割模塊輸入:
語義分割網絡對輸入的RGB圖像沒有大小限制,在像素層面的篩選策略需要固定圖像的大小,因此對輸入的訓練數據進行縮放或擴張處理;輸入的訓練數據分為兩個部分:一個是RGB圖像記為x,另一個是對應的語義標簽記為y;采用如下方式進行輸入數據的調整:
X=B(x) (1)
Y=N(y) (2)
其中,B(x)表示RGB圖像采用雙線性插值方式進行處理,N(y)表示語義標簽采用最鄰近插值法;
(1.2)特征提取編碼模塊:
RGB圖像輸入到語義分割網絡中,首先經過初始卷積層將通道數由3通道轉為32通道,該初始卷積層特征記為Finit;然后經過7個殘差卷積得到一個長和寬大小為16和32的高維特征,采用Mobilenetv2的Bottleneck殘差塊,最終通道數為320,因此高維特征(HLF)維度為16×32×320;其中輸入加上經過前3個Bottleneck殘差塊的特征作為低維特征(LLF);LLF表示為:
LLF=[Finit,BN_1(x),BN_2(x),BN_3(x)] (3)
其中,BN_1(x),BN_2(x),BN_3(x)分別表示經過前三個殘差塊的特征;[·]是串聯連接操作;
(1.3)解碼器模塊:
采用空洞空間卷積池化金字塔對上述高維特征HLF以不同采樣率的空洞卷積并行采樣,采樣后的特征經過融合與低維特征LLF輸入到解碼器模塊中進行通道數解碼,最終得到圖像中相應物體類別數的通道大小;整個過程表述如下:
Fdecode=DEC(FASPP,LLF) (4)
其中,FASPP是ASPP輸出的聯合特征;DEC表示本方法設計的解碼器模塊,將FASPP經過卷積層使得維度和LLF中的特征維度相同,將兩者在通道維度上連接起來并經過反卷積層得到Fdecode;得到Fdecode后將其輸入到雙線性上采樣層中,使得該特征轉換為與原RGB圖像一樣大小的尺寸,讓圖像上的每一個像素都對應預測的類別結果Fclass;
(2)基于主動式學習的數據篩選模塊
(2.1)圖像級別數據篩選模塊:
RGB圖像通過圖像語義分割模塊后除了得到最終預測結果Fclass,本方法提取編碼器模塊的中間特征Fdecode作為為圖像級別數據篩選模塊的輸入;將Fdecode輸入到設計的擬合評分網絡中,首先用一個卷積核為輸入特征的后兩個維度大小的全局池化層進行降維操作,得到一個與類別數大小相同的向量Vclass;將Vclass輸入到三個全連接層,通道數從類別數大小、16、8、1依次下降,最終得到一個數值S;S越接近于0代表著篩選的這張圖像在圖像語義分割模塊上的表現越好;反之,效果越差;
圖像語義分割網絡在訓練過程中計算損失的公式采用交叉熵函數,其函數表示如公式(5):
其中,M表示類別的數量,yc表示變量的類別判斷,類別相同則為1,不同則為0,pc表示對于觀測樣本屬于類別c的預測概率;在基于主動式學習的數據篩選模塊得到Vclass之后,通過設計如下公式(7)的MSE損失函數,來提升篩選模塊的性能:
Lpre=(Lseg-Vclass)2 (6)
其中,Lseg為圖像語義分割模塊訓練時得到的loss,Vclass為篩選模塊得到的數值,通過優化器不斷迭代優化,縮小兩者的差距,從而使得篩選模塊的抉擇優化的目的;總體的損失函數如公式(7)表示:
Ltotal=Lseg+λLpre (7)
其中,λ是超參數,用于控制Lpre在整個損失中的占比,取值范圍為0~1之間;通過訓練之后,固定參數在未標注的數據上進行預測,每一張圖像得到對應的Lpre,通過對Lpre的排序,選擇出前N個數值大的圖像作為下一輪需要標注的數據子集;
(2.2)像素級別數據篩選模塊:
通過圖像級別數據篩選模塊后,選擇出部分需要標注的數據子集;通過輸入篩選出的數據子集,得到每一張圖上的信息熵的分布;信息熵計算使用投票熵的方式來計算,在公式(5)的基礎上進行改進,表述如下:
其中,D表示進行了多少次投票,D設為20次;之后采用16*16大小的像素窗口在圖像上滑動,計算每一個像素窗口中的信息量,最終排序選擇出信息量較大的像素窗口;
(3)標簽傳播模塊
基于主動式學習的數據篩選模塊篩選出了第t幀,通過光流估計來得到第t幀和第t+1幀之間每個像素移動的距離(δx,δy);描述如下:
p(δx,δy)=OF(t,t+1) (9)
其中,p(δx,δy)是該像素點移動的距離;本方法采用現有的FlowNetS作為傳播模塊進行像素移動距離估計;得到像素移動距離p(δx,δy)之后,通過輸入第t幀的語義分割標簽,對應上每個像素,就得到第t+1幀的語義分割結果;整個過程表述如下:
Gt+1=warp(Gt,p(δx,δy)) (10)
其中,warp是像素扭曲函數,即讓RGB圖像上對應到Gt上的像素點進行x,y方向上的疊加計算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110012126.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種車用沖撞器及車輛
- 下一篇:一種大銀魚輔助批量測量夾具





