[發明專利]基于深度學習的人體時空動作檢測方法及系統、設備在審
| 申請號: | 202310256325.5 | 申請日: | 2023-03-07 |
| 公開(公告)號: | CN116385926A | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 劉軍;程煒 | 申請(專利權)人: | 深圳英飛拓智能技術有限公司 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V40/10;G06V10/62;G06V10/82;G06V10/766;G06V10/80;G06N3/0464;G06N3/045 |
| 代理公司: | 深圳市欣亞知識產權代理事務所(普通合伙) 44621 | 代理人: | 葛勤;程光慧 |
| 地址: | 518110 廣東省深圳市龍華區觀湖街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 人體 時空 動作 檢測 方法 系統 設備 | ||
本發明公開了一種基于深度學習的人體時空動作檢測方法及系統、設備及存儲介質,該方法包括:從獲取的視頻數據中讀取連續視頻幀并進行預處理;將預處理后的連續視頻幀輸入至3D?ResNeXt101骨干網絡中進行3D卷積,得到時序特征信息,同時將關鍵視頻幀輸入至2D?YOLO?X骨干網絡中,得到空間特征信息;通過預設的BERT模型融合時序、空間特征信息,得到聚合結果并進行卷積操作輸出動作類別分數和邊界框回歸參數;通過非極大值抑制算法對聚合結果計算,得到檢測結果。通過本發明提供的方法,結合了2D卷積和3D卷積網絡結合的雙流結構,通過自注意力機制融合時空信息,保證了動作時空特征的一致性,提高了時空定位精度,且訓練速度快,收斂快,模型檢測精度和速度高。
技術領域
本發明涉及計算機視覺技術領域,尤其涉及一種基于深度學習的人體時空動作檢測方法及系統、設備及存儲介質。
背景技術
目前,基于深度學習的人體時空動作定位是計算機視覺技術中一個重要的研究與應用領域。該領域是在動作識別的基礎上發展而來,動作識別的目標是給一段切割好的視頻分類、打上動作類別標簽。但在實際場景中,一個畫面可能包含不止一個人,這個人可能在同一時間點進行著多種動作(比如,走路時打電話),時空動作定位(Spatial-TemporalAction?localization)就可以解決復雜場景的多人多動作問題。具體來說,這種任務下的模型,不僅需要推理動作類別、動作的起始/終止時間點,還需要檢測動作施行者的(在畫面幀中的)空間區域。
相比于基于傳統的方法,基于深度學習的時空動作定位算法能有效提高計算精度,并縮短計算時間,具有實時性。由于任務性質類似于目標檢測與動作識別二者的結合,目前基于深度學習的時空動作定位方法主要分為以下幾種:
(1)兩階段的方法:對于圖像中的目標檢測,R-CNN系列作為兩階段的檢測器在第一階段使用選擇性搜索或區域建議網絡(RPN)提取建議區域,并在第二階段對這些區域中的對象進行分類。盡管Faster?R-CNN在目標檢測方面實現了最先進的結果,但由于兩階段較耗時,很難實現實時任務。而YOLO和SSD旨在將該過程簡化為一個階段,并具有出色的實時性能。對于視頻中的時空動作定位,由于R-CNN系列的成功,大多數研究方法建議首先檢測每個幀中的人,然后將這些邊界框合理地連接為動作管。例如先在RGB、光流上分別做建議區域檢測,然后將結果合并產生一個更大的建議區域集合,在這些區域中做分類,兩個流的特征信息互通、互相促進,提升時空動作定位性能。又例如其他一些工作使用3D卷積生成動作管建議,再實現相應3D特征的回歸和分類。以上這些方法精度一般比較高,但是實時性較差。
(2)端到端的方法:單階段的方法一般是參照雙流網絡的思想,在一個網絡中同時提取兩種或多種信息,相互促進,相互融合,得到最佳結果。其中有各種可以相互融合的信息,例如SlowFast中利用不同的幀率在兩路網絡中分別提取時間尺度和空間尺度上的特征;在YOWO中利用3D網絡和YOLO網絡分別提取時空特征;而在ACRN中,結合區域建議網絡和特征提取網絡提取動作主體與全局特征的關系。而對于信息的融合手段,既可以考慮輕便性而采用簡單的平均法,也可以考慮精度而選擇更多參數的自注意力模塊。而無論是哪種端到端的方法,都需要在沒有提供建議區域的前提下定位動作的發生位置并隨之判斷類別,因此相比動作識別任務和目標檢測任務,更加看重時空特征的建模。端到端的方法在精度上較兩階段的低,但是可以很好保證實時性,在實際應用中更受關注。
上述兩類方法均適均是基于深度學習的人體時空動作檢測算法,前者更看重高精度,后者更具實時性。在實際應用中,需要檢測動作的視頻通常是RGB模態的,由于面臨逆光、背光、弱光、強光等常見光照變化問題,輸入網絡的RGB視頻的質量參差可能會造成時空信息的失真,進而降低動作檢測的精度。
有鑒于此,有必要提出對目前的基于深度學習的人體時空動作檢測方法進行進一步的改進。
發明內容
為此,本發明目的在于至少一定程度上解決現有技術中的不足,從而提出一種基于深度學習的人體時空動作檢測方法及系統、設備及存儲介質。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳英飛拓智能技術有限公司,未經深圳英飛拓智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310256325.5/2.html,轉載請聲明來源鉆瓜專利網。





