[發明專利]一種基于視覺-語義特征的視頻中行為識別方法和系統在審
| 申請號: | 201810379626.6 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108647591A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 李方敏;尤天宇;劉新華;曠海蘭;張韜;欒悉道;陽超 | 申請(專利權)人: | 長沙學院 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 武漢臻誠專利代理事務所(普通合伙) 42233 | 代理人: | 宋業斌 |
| 地址: | 410003 湖南省長*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 行為識別 視頻 視覺特征 準確率 卷積神經網絡 計算復雜度 行為特征 語義特征 時空 視覺 空間位置信息 物體空間位置 循環神經網絡 物體檢測器 語義 交互行為 時間維度 特征融合 語義信息 軌跡法 光流 三維 貫穿 | ||
1.一種基于視覺-語義特征的視頻中行為識別方法,其特征在于,包括以下步驟:
(1)從數據集獲取圖像序列,對該圖像序列進行降采樣處理,以得到降采樣后的圖像序列V={vt},t∈0,1,…,T-1,并將降采樣后的圖像序列進行切片,以得到N個具有固定長度的圖像序列片段,其中T表示圖像序列的長度,N表示圖像序列片段的數量。
(2)對N個具有固定長度的圖像序列片段中的每幅圖像進行縮放和裁剪處理,并將N個圖像序列片段輸入三維卷積神經網絡中,以得到N個時空視覺特征向量。
(3)將步驟(1)中得到的每個圖像序列片段中選取一幅圖像,對該圖像進行縮放和裁剪處理,將縮放并裁剪后的圖像輸入到物體檢測器中,以得到物體種類的可信度和位置偏移量,并根據物體種類的可信度和位置偏移量構造人-物體空間位置特征向量。
(4)將步驟(2)中得到的時空視覺特征向量與步驟(3)中得到的人-物體空間位置特征向量進行特征融合。
(5)將步驟(4)特征融合后的特征向量輸入循環神經網絡,以得到長期行為特征。
(6)利用Softmax分類器對步驟(5)得到的長期行為特征進行分類,以生成對應于每一種行為種類的分類概率。
2.根據權利要求1所述的視頻中行為識別方法,其特征在于,將圖像序列進行切片具體是采用以下公式:
其中Tc是圖像序列片段的幀步長,δ是圖像序列片段中圖像序列的幀長度,n∈0,1,…N-1,且有Tc=8,δ=16。
3.根據權利要求1或2所述的視頻中行為識別方法,其特征在于,使用的三維卷積神經網絡是C3D網絡,使用的物理檢測器是分辨率為300×300的單發多盒檢測器。
4.根據權利要求1至3中任意一項所述的視頻中行為識別方法,其特征在于,將N個圖像序列片段輸入三維卷積神經網絡中,以得到N個時空視覺特征向量的過程具體為,針對每個圖像序列片段而言,首先將圖像序列片段輸入C3D網絡,然后使用C3D網絡中第五池化層的輸出作為短期時空視覺特征,最后將該特征圖規整為1個長度為8192的特征向量,其中第五池化層的輸出矩陣大小為1×4×4×512。
5.根據權利要求4所述的視頻中行為識別方法,其特征在于,步驟(3)具體為,首先,物理檢測器根據輸入的縮放并裁剪后的圖像輸出對應于多個邊界框的多個輸出向量,每個輸出向量包括L個物體種類的可信度P={pl}、以及位置偏移量[x,y,w,h],其中l∈0,1,…L-1,L表示物體種類的個數,pl表示第l個物體種類的可信度;然后對所有邊界框對應的輸出向量進行合并,以得到多個檢測物體的對應多個長度為5的空間位置特征向量[q,x/WI,y/HI,w/WI,h/HI],其中q表示檢測物體所屬物體種類的可信度,x和y分別為檢測物體的邊界框的橫縱坐標,w和h分別為檢測物體的邊界框的寬和高,WI和HI分別為縮放并裁剪后的圖像的寬和高;最后,針對所有L個物體種類中的每個物體種類而言,利用其可信度最高的5個檢測物體的空間位置特征向量構造一個長度為空間位置特征向量長度×L×5的特征向量。
6.根據權利要求1所述的視頻中行為識別方法,其特征在于,步驟(5)中使用的循環神經網絡是3層GRU網絡,其是由一層全連接層和3層級聯GRU層構成,全連接層有4096個神經元,GRU網絡的前兩層中GRU單元的神經元數量為4096,最后一層中GRU單元的神經元數量為256,前一層GRU單元的輸出是后一層GRU單元的輸入。
7.根據權利要求1所述的視頻中行為識別方法,其特征在于,步驟(5)中使用的循環神經網絡是組合GRU網絡,其是由3層全連接層和一層GRU層構成,前兩層全連接層中有4096個神經元,最后一層全連接層中有512個神經元,GRU層中GRU單元的神經元數量為512。
8.一種基于視覺-語義特征的視頻中行為識別系統,其特征在于,包括:
第一模塊,用于從數據集獲取圖像序列,對該圖像序列進行降采樣處理,以得到降采樣后的圖像序列V={vt},t∈0,1,…,T-1,并將降采樣后的圖像序列進行切片,以得到N個具有固定長度的圖像序列片段,其中T表示圖像序列的長度,N表示圖像序列片段的數量。
第二模塊,用于對N個具有固定長度的圖像序列片段中的每幅圖像進行縮放和裁剪處理,并將N個圖像序列片段輸入三維卷積神經網絡中,以得到N個時空視覺特征向量。
第三模塊,用于將第一模塊中得到的每個圖像序列片段中選取一幅圖像,對該圖像進行縮放和裁剪處理,將縮放并裁剪后的圖像輸入到物體檢測器中,以得到物體種類的可信度和位置偏移量,并根據物體種類的可信度和位置偏移量構造人-物體空間位置特征向量。
第四模塊,用于將第二模塊中得到的時空視覺特征向量與第三模塊中得到的人-物體空間位置特征向量進行特征融合。
第五模塊,用于將第四模塊特征融合后的特征向量輸入循環神經網絡,以得到長期行為特征。
第六模塊,用于利用Softmax分類器對第五模塊得到的長期行為特征進行分類,以生成對應于每一種行為種類的分類概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長沙學院,未經長沙學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810379626.6/1.html,轉載請聲明來源鉆瓜專利網。





