[發明專利]基于時空采樣的實例級別特征聚合方法有效
| 申請號: | 201910230234.8 | 申請日: | 2019-03-26 |
| 公開(公告)號: | CN109993772B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 郭軍;柳波;張斌;劉晨;李薇;張婭杰;劉文鳳;王嘉怡;王馨悅;陳文博;侯帥 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06T7/246 | 分類號: | G06T7/246;G06T7/269;G06V20/40 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 時空 采樣 實例 級別 特征 聚合 方法 | ||
本發明提供一種基于時空采樣的實例級別特征聚合方法,涉及計算機視覺技術領域。基于時空采樣的實例級別特征聚合方法,首先基于光流進行實例運動位移預測,得到相鄰幀的候選框位置;并基于運動位移進行實例級別的特征采樣,得到候選框在當前幀及其前后相鄰兩幀的采樣特征;然后基于光流質量和外觀質量進行實例級權重計算,提取候選框k對應的位置敏感的實例級權重;最后將當前幀i與其相鄰幀i?t和i+t的實例級別特征通過位置敏感的實例級權重進行聚合,得到聚合后的實例級別的特征。本發明提供的基于時空采樣的實例級別特征聚合方法,能有效的利用相鄰幀之間的運動信息,進而提升運動模糊、變形等復雜場景下的視頻目標檢測的精度。
技術領域
本發明涉及計算機視覺技術領域,尤其涉及一種基于時空采樣的實例級別特征聚合方法。
背景技術
近些年,視頻目標檢測逐漸成為計算視覺領域和智能視頻監控領域的研究熱點。但是在遮擋、模糊等復雜場景下,提高視頻目標檢測精度方面還略顯不足。目前國內外視頻目標檢測方法主要可以劃分為兩類,一類為框水平的方法,另一類為特征水平的方法。這兩類方法由于專注點并不沖突,可以結合使用,最大化的提升檢測性能。MANet提出幀級別特征聚合適用于對非剛體運動建模,但是對遮擋的對象效果較差,后進一步提出了實例級別的特征矯正,通過聚合實例級別的特征,提高模型對遮擋場景的檢測性能。STSN提出了基于時空采樣的方式實現了幀級別的特征聚合,直接學習幀級別的位移,通過可變形卷積操作對幀級別特征進行空間變換以此提高檢測效果。但是存在以下兩個問題:一是跟蹤算法預測的運動位移與實際位移存在較大的偏差;二是訓練跟蹤算法需要通過跟蹤id來計算跟蹤目標和跟蹤損失,并且需要遮擋標簽來預測遮擋概率,導致目標檢測網絡不能夠自適應學習實例在幀間的運動位移。
發明內容
本發明要解決的技術問題是針對上述現有技術的不足,提供一種基于時空采樣的實例級別特征聚合方法,實現對視頻進行實例級別特征聚合。
為解決上述技術問題,本發明所采取的技術方案是:基于時空采樣的實例級別特征聚合方法,包括以下步驟:
步驟1、基于光流進行實例運動位移預測,得到相鄰幀的候選框位置,具體方法為:
步驟1.1、通過光流網絡提取視頻圖像第i幀與第i-t幀之間的光流特征Mi-t→i及第i幀與第i+t幀之間的光流特征Mi+t→i;
步驟1.2、將通過光流網絡提取的視頻圖像的第i幀和第i-t幀之間的光流特征Mi-t→i以及第i幀與第i+t幀之間的光流特征Mi+t→i輸入到運動位移預測網絡,得到候選框坐標位置在相鄰幀的運動位移,如下公式所示:
其中,表示運動位移預測網絡,用于預測與候選框每個位置對應的運動位移,和分別表示候選框坐標位置在第i-t幀和第i+t幀的標準化的運動位移;
所述運動位移預測網絡包括若干可變形卷積模塊,每個可變形卷積模塊包括一個補償學習層和一個PS RoIPooling層(Position-sensitive RoIPooling,即位置敏感的RoIPooling);
步驟1.3、通過運動位移網絡的PS RoIPooling層將候選框特征提取到固定大小,并回歸每個局部位置的標準化的坐標位移得到預測候選框k在第i-t幀和第i+t幀的實例級別的運動位移和如下公式所示:
其中,γ為預定義的放縮因子,負責調整位移的量級,默認為0.1,ο表示元素級乘法,w,h分別為候選框的寬度和高度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910230234.8/2.html,轉載請聲明來源鉆瓜專利網。





