[發(fā)明專利]一種基于時(shí)空序列模型的視頻行為識(shí)別系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210403948.6 | 申請(qǐng)日: | 2022-04-18 |
| 公開(公告)號(hào): | CN114743144A | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 張艷平;于永新 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V10/56;G06V10/62;G06V10/764;G06V10/82;G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 李素蘭 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 時(shí)空 序列 模型 視頻 行為 識(shí)別 系統(tǒng) 方法 | ||
1.一種基于時(shí)空序列模型的視頻行為識(shí)別系統(tǒng),其特征在于,該系統(tǒng)包括亮度流采樣模塊、時(shí)間建模模塊、空間建模模塊和分類輸出模塊,其中:
所述亮度流采樣模塊,用于對(duì)視頻文件或者視頻流進(jìn)行亮度數(shù)據(jù)采樣,并作為神經(jīng)網(wǎng)絡(luò)的輸入,其中:將視頻文件或視頻流進(jìn)行解碼,獲得YCbCr顏色空間數(shù)據(jù);對(duì)解碼后的YCbCr數(shù)據(jù)進(jìn)行分段和采樣,并提取亮度分量數(shù)據(jù);將連續(xù)3幀亮度分量數(shù)據(jù)疊加構(gòu)成亮度流,作為神經(jīng)網(wǎng)絡(luò)的輸入;
所述時(shí)間建模模塊,用于對(duì)時(shí)空特征數(shù)據(jù)進(jìn)行時(shí)間建模,其中:將時(shí)空特征數(shù)據(jù)輸入核大小為1×1的二維卷積層,降低特征通道維度;將降維后的時(shí)空特征數(shù)據(jù)輸入核大小為3的一維卷積層,進(jìn)行時(shí)間建模;
所述空間建模模塊,用于對(duì)時(shí)空特征數(shù)據(jù)進(jìn)行空間建模,其中:將時(shí)空特征數(shù)據(jù)輸入核大小為3×3的二維卷積層,進(jìn)行空間建模;
所述分類輸出模塊將時(shí)空特征數(shù)據(jù)進(jìn)行分類和融合,得到整個(gè)視頻的分類結(jié)果,其中:將每段的時(shí)空特征數(shù)據(jù)輸入全連接層,得到每段的分類結(jié)果;將所有段的分類結(jié)果進(jìn)行平均融合,得到整個(gè)視頻的分類結(jié)果。
2.一種基于時(shí)空序列模型的視頻行為識(shí)別方法,其特征在于,該方法包括以下步驟:
步驟1、從視頻文件或視頻流獲得YCbCr顏色空間數(shù)據(jù),對(duì)YCbCr顏色空間數(shù)據(jù)進(jìn)行分段和采樣,并提取亮度分量數(shù)據(jù);相關(guān)模型如下:
將得到Y(jié)CbCr數(shù)據(jù){f1,f2,...,fN}平均分成T段,每段包含的幀數(shù)n=N/T,然后從每一段中,隨機(jī)采樣連續(xù)3幀YCbCr數(shù)據(jù),表達(dá)式如下:
{f1,f2,...,fN}={{f1,f2,...,fn}f{fn+1,fn+2,...,f2n},...,{f(T-1)n+1,f(T-1)n+2,...,fN}}
其中,S表示隨機(jī)函數(shù),k表示段,表示從第k段中隨機(jī)采樣的連續(xù)3幀YCbCr數(shù)據(jù),N表示視頻文件或者視頻流的幀數(shù);
步驟2、提取亮度數(shù)據(jù)并疊加:對(duì)于隨機(jī)采樣的連續(xù)3幀YCbCr數(shù)據(jù)分別提取亮度分量數(shù)據(jù),并疊加構(gòu)成亮度流數(shù)據(jù),表達(dá)式如下:
其中,H表示對(duì)提取亮度分量數(shù)據(jù),表示亮度分量數(shù)據(jù),Yk表示將疊加構(gòu)成的亮度流數(shù)據(jù),h和w表示視頻的寬和高,表示Yk為屬于實(shí)數(shù)域的3×h×w矩陣;
得到整個(gè)視頻文件采樣數(shù)據(jù)X,表達(dá)式如下:
其中:
其中,T表示視頻分割段數(shù);
步驟3、時(shí)空特征數(shù)據(jù)提取:將亮度流數(shù)據(jù)輸入7×7的二維卷積層,得到時(shí)空特征數(shù)據(jù)F,表達(dá)式如下:
F=K0*X
其中,K0表示核大小為7×7的二維卷積層,*表示卷積運(yùn)算;
步驟4、降低特征通道維度:將時(shí)空特征數(shù)據(jù)F輸入核大小為1×1的二維卷積層,降低特征通道維度,得到時(shí)空特征數(shù)據(jù)Fd,表達(dá)式如下:
Fd=K1*F
其中,K1表示核大小為1×1的二維卷積層,F(xiàn)表示輸入的時(shí)空特征數(shù)據(jù);
步驟5、時(shí)間建模:將時(shí)空特征數(shù)據(jù)Fd輸入核大小為3的一維卷積層,得到時(shí)間建模Ft,表達(dá)式如下:
Ft=Kt*Fd
Init Kts.t.Ft=Fd
其中,Kt表示核大小為3的一維卷積層,F(xiàn)t表示進(jìn)行時(shí)間建模后的時(shí)空特征數(shù)據(jù),InitKts.t.Ft=Fd表示Kt的參數(shù)被特殊初始化,使得Ft=Fd;
步驟6、空間建模:將時(shí)空特征數(shù)據(jù)Ft輸入核大小為3×3的二維卷積層,得到空間建模Fs,表達(dá)式如下:
Fs=Ks*Ft
其中,Ks表示核大小為3×3的二維卷積層,F(xiàn)s表示進(jìn)行空間建模后的時(shí)空特征數(shù)據(jù);
步驟7、恢復(fù)特征通道維度:將時(shí)空特征數(shù)據(jù)Fs輸入核大小為1×1的二維卷積層,得到時(shí)空特征數(shù)據(jù)Fu,表達(dá)式如下:
Fu=K2*Fs
其中,K2表示核大小為1×1的二維卷積層;
步驟8、將上述步驟4到步驟7的過程循環(huán)N次,N根據(jù)實(shí)際情況設(shè)定,實(shí)際情況包括GPU內(nèi)存大小、參數(shù)量大小、計(jì)算量大小、實(shí)時(shí)性要求和準(zhǔn)確率要求;
步驟9、通過全連接層得到分段結(jié)果:將時(shí)空特征數(shù)據(jù)Fu輸入全連接層,得到每段的分類結(jié)果zt,表達(dá)式如下:
zt=Z(Fk),1≤k≤T
其中,Z表示全連接層,F(xiàn)k表示第k個(gè)時(shí)間段的時(shí)空特征數(shù)據(jù),T表示視頻分割段數(shù),zt表示第t個(gè)時(shí)間段的分類結(jié)果;
步驟10、將所有段的分類結(jié)果z1,z2,...,zT進(jìn)行平均融合;
步驟11、得到整個(gè)視頻的分類結(jié)果L,表達(dá)式如下:
其中,Avg表示平均函數(shù)。
3.如權(quán)利要求1所述的一種基于時(shí)空序列模型的視頻行為識(shí)別方法,其特征在于:所述步驟一具體包括以下處理:
對(duì)于壓縮格式的視頻文件和視頻流,則需要先將視頻文件或視頻流進(jìn)行解碼,得到視頻顏色空間YCbCr數(shù)據(jù),表達(dá)式如下:
{f1,f2,...,fN}=Decode(input)
其中,Decode表示視頻解碼器,input表示輸入的視頻文件或視頻流,N表示視頻文件或者視頻流的幀數(shù),{f1,f2,...,fN}表示視頻解碼后得到Y(jié)CbCr數(shù)據(jù),對(duì)于使用YCbCr顏色空間的視頻設(shè)備,可以跳過此步,直接得到Y(jié)CbCr數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210403948.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種時(shí)空地理大數(shù)據(jù)的檢索方法及系統(tǒng)
- 一種泛知識(shí)化時(shí)空對(duì)象表達(dá)數(shù)據(jù)庫(kù)建立方法
- 一種基于時(shí)空密度波與同步的大型時(shí)空數(shù)據(jù)聚類算法GRIDWAVE
- 時(shí)空數(shù)據(jù)的存儲(chǔ)方法、查詢方法及存儲(chǔ)裝置、查詢裝置
- 一種云環(huán)境下時(shí)空索引的構(gòu)建方法、裝置及電子設(shè)備
- 面向工業(yè)4.0的時(shí)空大數(shù)據(jù)分布式存儲(chǔ)檢索方法及系統(tǒng)
- 一種數(shù)據(jù)比對(duì)碰撞方法和裝置
- 時(shí)空數(shù)據(jù)的異常檢測(cè)方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種可直接捕獲時(shí)空相關(guān)性的時(shí)空數(shù)據(jù)預(yù)測(cè)方法
- 多維時(shí)空譜數(shù)據(jù)融合方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)





