[發明專利]一種基于時空注意力機制的人體動作識別方法有效
| 申請號: | 202011242807.8 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112364757B | 公開(公告)日: | 2022-10-21 |
| 發明(設計)人: | 張強;于華;候亞慶;葛宏偉;周東生 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/25;G06V10/44;G06V10/80;G06V10/82;G06V10/774;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉;溫福雪 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時空 注意力 機制 人體 動作 識別 方法 | ||
本發明屬于計算機視覺領域,涉及視頻中的人體動作識別,用于定位和分類視頻中人體行為動作,具體為一種基于時空注意力機制的人體動作識別方法。本發明所提供的基于空間變換網絡的注意力機制,獲取與人體運動相關的區域,從而捕獲動作之間的細節變化;本發明所提供的局部區域與全局特征進行融合的方法,加強了人體動作的表示;本發明所提供的全局特征描述符,將來自空間信息、時間信息以及時空交互信息進行聚合來區分人體行為動作,提高識別效果。
技術領域
本發明屬于計算機視覺領域,涉及視頻中的人體動作識別,用于定位和分類視頻中人體行為動作,具體為一種基于時空注意力機制的人體動作識別方法。
背景技術
近年來,隨著人工智時代的到來和計算機領域相關科技的日新月異,人機交互的研究越來越受到人們的關注,機器人的應用領域也變得越來越廣泛。在人與機器人的交互系統中,機器人需要從獲取的視頻數據中識別人類的行為。因此實現人類與機器人高效、和諧的協作,需要精確的識別人類的行為動作。盡管近幾年來對人體動作識別的研究取得了重要的進展,但人體動作識別的高度復雜性和環境的多變使得識別的精度并未滿足相關行業的實際需求。本發明旨在從不同角度進一步提高人體動作識別的精度。接下來詳細介紹這一領域中相關的背景技術。
(1)人體動作識別數據集介紹
人體動作識別任務中的公開數據集的數量較多,大致分為兩種形式,分別為基于三維骨骼點特征和基于RGB視頻的數據集。與三維骨骼點數據集相比,基于RGB視頻數據集的視覺內容要復雜得多,例如光照強度、視角、背景和相機的抖動等條件下會呈現不同的動作場景,而在不同的動作場景中相同的人體行為在姿態上會產生差異。即使在恒定的動作場景中,人體動作也會有較大的自由度,對于同一種動作不同的人會在頻率、幅度上差別很大。同時基于RGB視頻數據集也包含了更多的視覺人體運動信息,因此基于該類型數據集的研究更具挑戰性。
(2)傳統的人體動作識別方法
對于傳統的人體動作識別方法,如方向梯度直方圖、光流直方圖和運動邊界直方圖等,通常需要將圖像的x和y方向的光流圖像上計算方向梯度直方圖與光流直方圖特征,獲取隨光度變化的興趣點。然而,這些方法中的特征描述子生成過程冗長,導致速度慢,方法的實時性較差;同時,這些方法需要人工提取特征,并且識別性能相對較差,方法的泛化能力不強;由于梯度的性質,該算法的特征描述子對視頻幀中的噪點相當敏感。
(3)基于深度學習的人體動作識別方法
近幾年,由于卷積神經網絡(CNN)在圖像分類中的廣泛應用,特別是深度學習技術的迅速發展,基于視頻的人體動作識別方法取得了長足的進步。其中,長短期記憶網絡由于具有長期保存信息的能力,因此可以通過將卷積神經網絡與長短期記憶網絡模型相結合對視頻級的人體動作進行識別,以此來捕捉關于人體動作的時間和空間的動態信息。此外,3D-CNN(C3D)是卷積神經網絡在時間領域的擴展,傳統的2D卷積沒有考慮到時間維度的幀間運動信息,C3D是在2D卷積的基礎上,增加了時間維度信息。使用3D CNN能更好的捕獲視頻中的時間和空間的特征信息,它利用3D卷積核來提取視頻幀間的時間演化信息。與2D-CNN相比,它在提取時空特征方面表現出了更好的性能。然而,經大量的實驗證明,現有的C3D方法存在可伸縮性差和計算成本高的問題,可擴展性較差。之后,雙流CNN的提出在一定程度上解決了以上問題,雙流CNN可以分別提取視頻中的空間特征和時間特征。在空間方面,可以隨著CNN基礎網絡結構的發展而利用新的CNN框架來獲取視頻人體動作的空間特征;在時間方面,可以利用光流方法來捕獲人體的運動軌跡。雙流CNN可以同時利用CNN框架和光流算法的優勢對視頻級的人體動作進行識別。
然而,現有的雙流CNN方法仍然存在需要改進的地方。一方面,由于人體的不同區域在人體行為活動過程中具有不同程度的顯著性,可以通過分別定位人體動作在空間的顯著性區域,將提取到的區域特征與全局圖像特征相結合。現有的方法未考慮到人體動作的感興趣局部區域部分和全局區域特征之間的關系。另一方面,雙流CNN在對提取的時空特征進行融合的時候,如何有效地捕捉兩個流之間的交互信息,需要進一步改進和完善。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011242807.8/2.html,轉載請聲明來源鉆瓜專利網。





