[發明專利]一種基于類別感知特征聚合的視頻目標檢測方法在審
| 申請號: | 202210199529.5 | 申請日: | 2022-03-01 |
| 公開(公告)號: | CN114612820A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 鄭慧誠;陳蔓薇;樊迪威 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V10/74;G06V10/774;G06K9/62 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 類別 感知 特征 聚合 視頻 目標 檢測 方法 | ||
1.一種基于類別感知特征聚合的視頻目標檢測方法,其特征在于,包括:
檢測主干ResNet-101對視頻幀進行特征提取,獲得高層語義信息,利用可形變卷積進行亞像素級的特征對齊,隨后使用區域生成網絡RPN為每一幀生成目標候選框;
使用候選框分類模塊對生成的候選框進行分類操作,后續僅對具有相同類標簽的候選框進行特征聚合;
在進行類別感知特征聚合時,使用廣范圍逐層遞進特征聚合模塊進行雙向且逐層遞進的候選框層級的特征聚合操作,對于當前幀前、后向計算出的中間結果進行保存并用以更新下一幀計算所使用的支持幀;
使用類間關系建模模塊對同一幀上的不同類別目標進行空間位置上的關系建模;
將聚合后的候選框特征輸入到全連接層以進行具體類別判別和目標框位置的回歸修正。
2.如權利要求1所述的一種基于類別感知特征聚合的視頻目標檢測方法,其特征在于,所述使用候選框分類模塊對生成的候選框進行分類操作之前,還包括:通過特征層運動對齊模塊對當前幀進行亞像素級細粒度特征對齊,具體為:在可形變對齊中,使用可形變卷積分別將Ft+s、Ft-s與Ft進行逐像素點位置p對齊,其中Ft代表當前幀特征圖,Ft+s、Ft-s代表局部幀特征圖,其數學公式可表示為:
其中R={(-1,-1),(-1,0),…,(0,1),(1,1)}代表一個3×3卷積核的規則網格,卷積核的權重用w表示,pk代表卷積核中的第k個采樣偏移量,輸出代表對齊后的特征,Δpk是對Ft+s與Ft進行一系列卷積預測出的運動偏移量;
最后,將當前幀和各個局部幀對齊后的特征和進行逐元素相加,得到模塊的最終輸出Ft′,即當前幀進行亞像素級細粒度特征對齊后的特征。
3.如權利要求1所述的一種基于類別感知特征聚合的視頻目標檢測方法,其特征在于,所述候選框分類模塊將RPN生成的候選框分類為不同類別或背景,隨后僅對具有相同類別標簽的候選框進行實例級的特征聚合。
4.如權利要求1所述的一種基于類別感知特征聚合的視頻目標檢測方法,其特征在于,所述使用廣范圍逐層遞進特征聚合模塊進行雙向且逐層遞進的候選框層級的特征聚合操作,具體為:
對于候選框的聚合,首先需要對候選框間進行關系建模,給定一組候選框集合B={B1,B2,…,Bn},其中每個候選框Bi包含語義和位置信息,假設通過關系建模增強后的候選框特征集合為則可由如下公式表示聚合增強過程:
其中γ(·)為一般變換函數,Sk,i表示Bk與Bi候選框層級的相似性,其相似性的計算公式如下:
其中代表邊界框Bk與Bi間的語義特征相似度,和ξ(·)為提取邊界框語義特征的網絡結構,⊙為點積操作,gk,i為邊界框Bk與Bi的幾何相似度,其具體計算公式如下:
其中θ(·)為一般變換函數,δ(·)為位置嵌入操作,將原始的低維幾何相似度gk,i嵌入到深度檢測網絡的高維表示中,以邊界框Bi為例,其幾何信息可以表示為Bi=(xi,yi,wi,hi),其中xi,yi為候選框Bi的邊框中心坐標,wi和hi分別代表邊框的寬和高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210199529.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種羽毛球毛片的裁剪模具檢測裝置
- 下一篇:生態環保全功能洗衣溶劑





