[發明專利]一種視頻動作分類的處理方法及裝置有效
| 申請號: | 201710573692.2 | 申請日: | 2017-07-14 |
| 公開(公告)號: | CN107463949B | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 陳雯婕;伏文龍;曹立宏 | 申請(專利權)人: | 北京協同創新研究院;中國傳媒大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/00;G06N3/04 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王慶龍;曹杰 |
| 地址: | 100094 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻 動作 分類 處理 方法 裝置 | ||
本發明實施例提供一種視頻動作分類的處理方法及裝置,方法包括:讀取待識別的視頻幀,并提取視頻幀的光流圖像;選擇一幀視頻幀作為起始幀,提取起始幀后的連續m幀視頻幀x方向和y方向的光流圖像,并與起始幀的RGB圖像作為一個樣本;將每一個樣本中的光流圖像和起始幀的RGB圖像同時輸入SCNN和TCNN,以分別獲得SCNN和TCNN的最高卷積層計算出的卷積投影;根據卷積投影和多尺度卷積核的融合模塊,獲取視頻動作的時空融合特征投影;將時空融合特征投影依次通過卷積層、最大池化層和全連接層進行計算,并根據計算結果和分類器獲得視頻動作所屬分類。裝置執行上述方法。本發明實施例提供的視頻動作分類的處理方法及裝置,能夠提高復雜場景下人物動作的識別準確率。
技術領域
本發明實施例涉及圖像識別技術領域,具體涉及一種視頻動作分類的處理方法及裝置。
背景技術
近些年來,圖像識別成為一個熱門的研究領域,基于視頻幀的動作識別也越來越被關注。
現有的視頻人物動作識別方法有很多,比如雙流算法、基于人體骨骼的算法,卷積神經網絡是近年發展起來,并引起廣泛重視的一種高效識別方法。現在,卷積神經網絡已經成為眾多科學領域的研究熱點之一,特別是在模式分類領域,由于該網絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用,但是,上述方法對于復雜場景下人物動作識別的準確性和速度都有待提高。
因此,如何提高復雜場景下人物動作的識別準確率,成為亟須解決的問題。
發明內容
針對現有技術存在的問題,本發明實施例提供一種視頻動作分類的處理方法及裝置。
第一方面,本發明實施例提供一種視頻動作分類的處理方法,所述方法包括:
讀取待識別的視頻幀,并提取所述視頻幀的光流圖像;
選擇一幀視頻幀作為起始幀,提取所述起始幀后的連續m幀視頻幀x方向和y方向的光流圖像,并與所述起始幀的RGB圖像作為一個樣本;
將每一個樣本中的光流圖像和起始幀的RGB圖像同時輸入空間卷積神經網絡和時序卷積神經網絡,以分別獲得所述空間卷積神經網絡和所述時序卷積神經網絡的最高卷積層計算出的卷積投影;
根據所述卷積投影和多尺度卷積核的融合模塊,獲取所述視頻幀中視頻動作的時空融合特征投影;
將所述時空融合特征投影依次通過卷積層、最大池化層和全連接層進行計算,并根據計算出的結果和分類器獲得所述時空融合特征投影對應的視頻動作的所屬分類類別。
第二方面,本發明實施例提供一種視頻動作分類的處理裝置,所述裝置包括:
提取單元,用于讀取待識別的視頻幀,并提取所述視頻幀的光流圖像;
選擇單元,用于選擇一幀視頻幀作為起始幀,提取所述起始幀后的連續m幀視頻幀x方向和y方向的光流圖像,并與所述起始幀的RGB圖像作為一個樣本;
獲得單元,用于將每一個樣本中的光流圖像和起始幀的RGB圖像同時輸入空間卷積神經網絡和時序卷積神經網絡,以分別獲得所述空間卷積神經網絡和所述時序卷積神經網絡的最高卷積層計算出的卷積投影;
獲取單元,用于根據所述卷積投影和多尺度卷積核的融合模塊,獲取所述視頻幀中視頻動作的時空融合特征投影;
分類單元,用于將所述時空融合特征投影依次通過卷積層、最大池化層和全連接層進行計算,并根據計算出的結果和分類器獲得所述時空融合特征投影對應的視頻動作的所屬分類類別。
第三方面,本發明實施例提供另一種視頻動作分類的處理裝置,包括:處理器、存儲器和總線,其中,
所述處理器和所述存儲器通過所述總線完成相互間的通信;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京協同創新研究院;中國傳媒大學,未經北京協同創新研究院;中國傳媒大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710573692.2/2.html,轉載請聲明來源鉆瓜專利網。





