[發(fā)明專利]基于視頻中多層次交互推理的復(fù)雜事件識(shí)別方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010330808.1 | 申請(qǐng)日: | 2020-04-24 |
| 公開(公告)號(hào): | CN111626121B | 公開(公告)日: | 2022-12-20 |
| 發(fā)明(設(shè)計(jì))人: | 楊華;李室呈;孫軍 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V10/25;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 上海恒慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 徐紅銀 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 視頻 多層次 交互 推理 復(fù)雜 事件 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于視頻中多層次交互推理的復(fù)雜事件識(shí)別方法及系統(tǒng),該方法包括:提取視頻中對(duì)象的形態(tài)與類別特征;建圖G=(V,E,A)表示事件中的交互,考慮對(duì)應(yīng)的對(duì)象間的交互;利用三維卷積對(duì)視頻做卷積,通過視頻紋理,圖樣提取事件的環(huán)境特征;將環(huán)境特征自適應(yīng)投影到構(gòu)建的圖中;通過圖卷積網(wǎng)絡(luò)對(duì)投影后得到的圖進(jìn)行卷積實(shí)現(xiàn)視頻中對(duì)象與對(duì)象、對(duì)象與環(huán)境、環(huán)境與環(huán)境的多層次的交互的推理,從而理解視頻中所發(fā)生的復(fù)雜事件。該系統(tǒng)包括:形態(tài)與類別特征提取模塊、建圖模塊、環(huán)境特征提取模塊、投影模塊以及圖卷積模塊。通過本發(fā)明,可以識(shí)別長時(shí)長事件,多層次交互推理提升了識(shí)別復(fù)雜事件的能力,提高了準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)視覺技術(shù)領(lǐng)域,特別涉及一種基于視頻中多層次交互推理的復(fù)雜事件識(shí)別方法及系統(tǒng)。
背景技術(shù)
視頻的行為識(shí)別技術(shù)在實(shí)際應(yīng)用中發(fā)揮著越來越重要的作用,比如在安全監(jiān)控,在線內(nèi)容審核,自動(dòng)字幕生成,視頻檢索等。現(xiàn)如今大部分的計(jì)算機(jī)視覺研究者將行為識(shí)別技術(shù)集中在短時(shí)間內(nèi)簡(jiǎn)單場(chǎng)景下的動(dòng)作識(shí)別,但是,在實(shí)際應(yīng)用中,例如現(xiàn)實(shí)中情況下的犯罪行為,嫌疑人會(huì)傾向于在復(fù)雜的場(chǎng)景中隱蔽的完成犯罪事件。事件可能長達(dá)數(shù)分鐘,遠(yuǎn)遠(yuǎn)超過現(xiàn)有模型所致力的范圍(30秒-1分鐘)。事件本身可能是由數(shù)個(gè)行為組成,有著復(fù)雜的邏輯。
從方法上來看,主流的模型皆是基于堆疊對(duì)像素做卷積的卷積核,通過提取視頻里每一幀的圖樣的特征來識(shí)別視頻的內(nèi)容。另有部分工作嘗試通過推理事件中目標(biāo)間的交互做行為識(shí)別,然而,這部分工作只局限于考慮視頻中對(duì)象間的交互,未利用視頻中的環(huán)境信息,推理對(duì)象和環(huán)境間的交互。因此現(xiàn)有方法將難以識(shí)別視頻中發(fā)生的復(fù)雜事件。
發(fā)明內(nèi)容
本發(fā)明針對(duì)上述現(xiàn)有技術(shù)中存在的問題,提出一種基于視頻中多層次交互推理的復(fù)雜事件識(shí)別方法及系統(tǒng),具備理解長時(shí)長事件的能力;綜合了多層次交互推理提升了識(shí)別復(fù)雜事件的能力。
為解決上述技術(shù)問題,本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明提供一種基于視頻中多層次交互推理的復(fù)雜事件識(shí)別方法,其包括:
S11:利用重構(gòu)的Faster-RCNN目標(biāo)檢測(cè)模型提取視頻中對(duì)象的形態(tài)與類別特征;
S12:建圖G=(V,E,A)表示事件中的交互,將所述S11中提取到的上述特征作為圖中的節(jié)點(diǎn)代表對(duì)應(yīng)的對(duì)象;節(jié)點(diǎn)經(jīng)特征變化后在特征空間的歐氏距離作為圖的邊,被鄰接矩陣表示,作為對(duì)應(yīng)的對(duì)象間的交互系數(shù);
S13:利用三維卷積對(duì)視頻做卷積,通過視頻紋理,圖樣提取事件的環(huán)境特征
S14:將所述S13中得到的環(huán)境特征自適應(yīng)投影到所述S12構(gòu)建的圖中;
S15:通過圖卷積網(wǎng)絡(luò)對(duì)所述S14投影后得到的圖進(jìn)行卷積實(shí)現(xiàn)視頻中對(duì)象與對(duì)象、對(duì)象與環(huán)境、環(huán)境與環(huán)境的多層次的交互的推理,從而理解視頻中所發(fā)生的復(fù)雜事件。
較佳地,所述S11進(jìn)一步包括:
所述Faster-RCNN目標(biāo)檢測(cè)模型包括:圖像卷積模塊、候選框提取模塊、特征提取模塊、過濾模塊以及特征變換模塊;其中,
利用所述圖像卷積模塊、候選框提取模塊、特征提取模塊以及過濾模塊檢測(cè)到對(duì)象并提取出對(duì)象的形態(tài)特征;利用特征變換模塊提取出對(duì)象的類別特征;進(jìn)一步地,
所述Faster-RCNN目標(biāo)檢測(cè)模型的訓(xùn)練采用多任務(wù)的方式,利用所述圖像卷積模塊、候選框提取模塊、特征提取模塊以及過濾模塊學(xué)習(xí)到目標(biāo)檢測(cè)的回歸誤差;利用特征變換模塊學(xué)習(xí)到目標(biāo)檢測(cè)的分類誤差。
較佳地,所述S12進(jìn)一步包括:
對(duì)任意兩個(gè)對(duì)象的特征vi,vj,其在特征空間中的歐氏距離:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010330808.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 利用商用支撐結(jié)構(gòu)所構(gòu)筑的多層次水產(chǎn)養(yǎng)殖系統(tǒng)
- 多層次微粒體及其抗眩膜
- 一種自動(dòng)生成網(wǎng)格與著色器多層次細(xì)節(jié)的方法
- 一種高靈敏度電容型柔性壓力傳感器
- 一種基于多組學(xué)數(shù)據(jù)整合的植物全基因組多層次生物網(wǎng)絡(luò)重建方法
- 基于多層次深度特征的鐵軌異物檢測(cè)方法與裝置
- 多源故障檢測(cè)與診斷方法和裝置
- 識(shí)別待檢測(cè)樣本中異常細(xì)胞的方法、裝置和存儲(chǔ)介質(zhì)
- 云平臺(tái)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 用于產(chǎn)生多層次字符圖形的方法和裝置以及記錄介質(zhì)





