[發(fā)明專利]一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法在審
| 申請?zhí)枺?/td> | 202110075596.1 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN113158735A | 公開(公告)日: | 2021-07-23 |
| 發(fā)明(設(shè)計)人: | 任柯燕;錢欣艷;岳天一;張淳;張文濟(jì) | 申請(專利權(quán))人: | 北京工業(yè)大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達(dá)知識產(chǎn)權(quán)代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 神經(jīng)網(wǎng)絡(luò) 密集 事件 描述 方法 | ||
1.一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法,其特征在于,具體包括以下步驟:
(1)將待分析的視頻分組,利用光流法、3D卷積網(wǎng)絡(luò)和2D卷積網(wǎng)絡(luò)分別對每組視頻數(shù)據(jù)提取特征,其中,光流法提取視頻動作特征,3D卷積網(wǎng)絡(luò)提取視頻視覺特征,2D卷積網(wǎng)絡(luò)提取密集事件描述關(guān)注對象的特征及對象類別;
(2)為獲取視頻中對象間的關(guān)系,對每組視頻數(shù)據(jù)中提取的視頻對象建立空間圖,空間圖是用圖的形式表示目標(biāo)對象之間的關(guān)系,一組視頻數(shù)據(jù)對應(yīng)一個空間圖,一個空間圖由一個鄰接矩陣和一個特征矩陣表示,鄰接矩陣用于表示空間圖中的任意兩個對象之間是否存在關(guān)系,特征矩陣由空間圖中所有節(jié)點的特征組成,節(jié)點即對象;利用圖卷積網(wǎng)絡(luò)對空間圖上的所有節(jié)點更新,即將特征矩陣更新為包含相鄰節(jié)點信息的新的特征矩陣;
其中,兩個對象之間是否存在關(guān)系的判別方法是計算兩個對象之間的余弦相似度,大于閾值時認(rèn)為存在關(guān)系,否則不存在關(guān)系;
將更新后的對象特征與光流法、3D卷積得到的視頻特征拼接為該組的視頻數(shù)據(jù)的長特征;
(3)為使各組長特征帶有前后組的信息以便更好地劃分事件區(qū)域,將步驟(2)得到的各組的長特征按時間順序輸入至LSTM網(wǎng)絡(luò),得到各組帶有上下文信息的特征,并將所有組的特征按時間順序拼接為視頻特征;
(4)采用錨邊框?qū)σ曨l特征進(jìn)行檢測,劃分為不同事件的候選時間區(qū)域,其中,錨邊框是事先固定好的不同大小的窗口,將錨邊框按不同起始時間滑動獲取多個候選時間區(qū)域;
(5)提取每個候選時間區(qū)域視頻特征,通過兩層卷積層預(yù)測每個候選時間區(qū)域包含密集事件的分?jǐn)?shù),采用非極大值抑制篩選時間區(qū)域,將所有的候選時間區(qū)域按照分?jǐn)?shù)從大到小的順序進(jìn)行排列,計算分?jǐn)?shù)最高的候選時間區(qū)域與其余候選時間區(qū)域的交并比(IoU),刪除IoU大于第一閾值,且概率分?jǐn)?shù)小于第二閾值的時間區(qū)域,剩余的時間區(qū)域即為該視頻中發(fā)生事件的時間區(qū)域,每個區(qū)域的開始時間和結(jié)束時間即為密集事件描述中每個事件的起始終止時間;
(6)為了對每個時間區(qū)域更好地解碼成文字描述,提取步驟(5)得到的密集事件發(fā)生時間區(qū)域的視頻特征,對每一個時間區(qū)域構(gòu)建時間圖,將時間區(qū)域內(nèi)每一組的長特征作為時間圖的節(jié)點,通過GAT完成時間圖的更新,得到包含該密集事件發(fā)生時間區(qū)域內(nèi)、其他節(jié)點特征信息的、每個節(jié)點的密集事件特征,使每個節(jié)點的長特征獲取該時間區(qū)域其他節(jié)點的特征信息;
(7)將步驟(6)中每組的密集事件特征依次通過LSTM解碼成對應(yīng)文字輸出,該輸出為最終的事件描述,每個描述與步驟(4)的起始時間終止時間相對應(yīng),該模型輸出為事件的起始時間、終止時間和文字描述。
2.根據(jù)權(quán)利要求1所述的一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法,其特征在于,步驟(1)所述的視頻分組指視頻中每16幀作為一組;步驟(1)所述的3D卷積采用C3D模型,2D卷積采用目標(biāo)檢測模型。
3.根據(jù)權(quán)利要求2所述的一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法,其特征在于,所述密集事件描述關(guān)注對象的提取過程指2D卷積網(wǎng)絡(luò)在每16幀中隨機產(chǎn)生一幀作為關(guān)鍵幀,將關(guān)鍵幀中對象類別及特征檢測出來,對象類別檢測分?jǐn)?shù)由高到低排列,取前20個對象類別所對應(yīng)的對象特征作為2D卷積網(wǎng)絡(luò)提取的視頻對象的特征,這前20個對象類別及對象的特征,即為密集事件描述關(guān)注對象。
4.根據(jù)權(quán)利要求1所述的一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法,其特征在于,步驟(2)所述的空間圖節(jié)點為關(guān)鍵幀的20個對象的類別和對象的特征,不同對象間的聯(lián)通度由對象類別詞向量的余弦相似度計算,高于閾值則聯(lián)通,反之不聯(lián)通。
5.根據(jù)權(quán)利要求1所述的一種基于圖神經(jīng)網(wǎng)絡(luò)的密集事件描述方法,其特征在于,步驟(6)所述的模型GAT使用的是2層的多頭注意力機制的GAT。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京工業(yè)大學(xué),未經(jīng)北京工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110075596.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





