[發(fā)明專利]基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法有效
| 申請?zhí)枺?/td> | 201910216232.3 | 申請日: | 2019-03-21 |
| 公開(公告)號: | CN109886358B | 公開(公告)日: | 2022-03-08 |
| 發(fā)明(設計)人: | 王永雄;談詠東;黃強 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06N3/04 |
| 代理公司: | 上海邦德專利代理事務所(普通合伙) 31312 | 代理人: | 余昌昊 |
| 地址: | 200093 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多時 信息 融合 卷積 神經(jīng)網(wǎng)絡 人體 行為 識別 方法 | ||
本發(fā)明提出了一種基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法,首先構建(2+1)D卷積神經(jīng)網(wǎng)絡,經(jīng)訓練后直到網(wǎng)絡模型評估準確率達到穩(wěn)定值后,使用網(wǎng)格模型進行視頻人體行為識別。本發(fā)明中提出的(2+1)D卷積神經(jīng)網(wǎng)絡同時使用不同尺度空間感受野的空間卷積層進行空間信息提取,同時使用多個不同尺度時域感受野的時域卷積層進行時域信息提取,將提取的特征信息融合后作為下一層的輸入,將包含n種尺度空間感受野的卷積核與包含m種尺度時域感受野的卷積核進行串聯(lián),設計了包含k種時空感受野的多時空融合卷積層,能夠同時利用視頻較長和較短時間范圍內的特征信息建模,更準確地識別人體行為。
技術領域
本發(fā)明涉及一種視頻人體行為識別方法,具體涉及一種基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法。
背景技術
視頻人體行為識別是計算機視覺中最具挑戰(zhàn)性的任務之一,而且可以在眾多領域具有廣泛的應用,如視頻監(jiān)控、運動檢索、人機交互、智能家居以及醫(yī)療保健。傳統(tǒng)的視頻行為識別方法一般是通過人工設計的視頻時空特征,如SIFT-3D、STIPs、HOG3D、HOF、密集軌跡(iDT)等。隨著卷積神經(jīng)網(wǎng)絡在靜態(tài)圖像識別領域取得了引人注目的進步,涌現(xiàn)出了一大批具有強大特征提取能力的網(wǎng)絡結構。近年,將卷積神經(jīng)網(wǎng)絡應用于視頻行為識別成為了國內外研究熱點。Ji等人將2D卷積擴展為能夠獲取時域信息的3D卷積,并應用到了視頻行為識別中。Tran等人進一步研究時間建模在行為識別中的作用(對視頻進行3D卷積),設計了一個只輸入RGB圖像的卷積神經(jīng)網(wǎng)絡模型,取得了不錯的效果,同時也證明了在視頻行為識別中3D卷積神經(jīng)網(wǎng)絡顯著優(yōu)于2D卷積神經(jīng)網(wǎng)絡。利用時空信息而不僅僅是空間信息進行視頻分類的優(yōu)勢在各種研究成果中已經(jīng)得到驗證。例如3D卷積神經(jīng)網(wǎng)絡的變體(2+1)D卷積、P3D卷積等。
但上述方法都存在一定的缺陷:第一,計算復雜,存在參數(shù)冗余;第二這些方法都只對單一時空感受野的信息建模,存在一定的局限性,難以提取多變的時空信息,影響了卷積網(wǎng)絡性能,不能有效地識別復雜的人體行為。
發(fā)明內容
為克服現(xiàn)有技術中的問題,本發(fā)明提出的一種基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法,包括如下步驟:
步驟一:制作樣本標簽,將樣本數(shù)據(jù)集根據(jù)類別制作不同的標簽,將樣本數(shù)據(jù)集分為訓練數(shù)據(jù)集和評估數(shù)據(jù)集;
步驟二:構建(2+1)D卷積神經(jīng)網(wǎng)絡,使用MST單元替換(2+1)D網(wǎng)絡中的卷積單元,構建MST-(2+1)D模型;
步驟三:初始化和設置網(wǎng)絡模型,將網(wǎng)絡模型參數(shù)隨機初始化;
步驟四:訓練和評估模型,將所述訓練數(shù)據(jù)集的每一幀圖像裁剪成尺寸為112*112的圖像輸入網(wǎng)絡模型進行訓練,在每一輪訓練后對網(wǎng)絡模型進行評估;經(jīng)多次訓練后直到網(wǎng)絡模型評估準確率達到一個穩(wěn)定值后停止訓練,保留網(wǎng)格模型的權重;
步驟五:將得到的權重導入構建的MST-(2+1)D模型中,使用網(wǎng)格模型進行視頻人體行為識別,進行人體行為識別。
本發(fā)明提出的所述基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法中,訓練數(shù)據(jù)集和評估數(shù)據(jù)集的比例為2:1。
本發(fā)明提出的所述基于多時空信息融合卷積神經(jīng)網(wǎng)絡的人體行為識別方法中,所述MST(2+1)D模型中含有一個輸入層、6個MST單元、一個全局池化層、一個全連接層、一個softmax分類層;每一個MST單元都包含一個空間卷積層、一個時域卷積層、兩個BN層、兩個非線性層,其中空間卷積層含有兩種空間感受野,大小分別為1*1、3*3,時域卷積層含有三種時域感受野大小分別為1、3、5;對卷積層輸出的張量進行池化,然后輸入全連接層,將全連接層的輸出作為最終的特征輸入到softmax分類層進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經(jīng)上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910216232.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





