[發明專利]基于BERT模型的通道特征交互時間建模行為識別方法在審
| 申請號: | 202211083801.X | 申請日: | 2022-09-06 |
| 公開(公告)號: | CN115457657A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 李曉潮;楊曼;甘利鵬 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06V10/77;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 模型 通道 特征 交互 時間 建模 行為 識別 方法 | ||
基于BERT模型的通道特征交互時間建模行為識別方法,屬于計算機視覺、深度學習和行為識別技術領域。將動作視頻分解成對應的RGB圖像序列輸入二維卷積神經網絡,基于二維卷積神經網絡提取的特征,通過通道重組模塊和通道BERT模型對子通道特征序列進行自注意力計算,提取隨時間變化差異較大的關鍵子通道特征以及它們之間的交互相關性,獲得區分動作類別的關鍵語義特征及其相關性,從而提高行為分類精度。通過將通道BERT和時間BERT聯合起來,進一步關注關鍵幀中的關鍵通道語義特征,從而獲得更高的行為識別準確率。
技術領域
本發明屬于計算機視覺、深度學習和行為識別技術領域,尤其是涉及一種基于BERT(雙向編碼表征轉換器,BERT:Bidirectional Encoder Representation fromTransformers)模型的通道特征交互時間建模行為識別方法。
背景技術
行為識別是計算機視覺的基礎任務之一,在人機交互、視頻檢索、智能安全監控等場合中有著廣泛的應用。行為識別技術主要是通過對視頻數據處理分析從而讓計算機理解人的動作和行為。因此,行為識別的關鍵技術在于動作變化過程中視頻語義特征沿時間維度的建模。首先,在特征建模中需要提取人體行為在視頻中的時空變化關系,通過對時空特征建模來描述人體的不同行為外觀變化的差異。其次,需要考慮不同時刻視頻幀之間的通道關系,有效的通道特征交互可以更完整地表征視頻語義信息??梢?,對視頻中的通道特征交互進行時間建模是一種行之有效的提升行為識別任務精度的方法。
經過分析和實驗發現,在二維卷積網絡嵌入BERT自注意力機制模塊可以學習提取圖像幀之間的時間相關性,提高行為識別的精度。在此基礎上,提出通道重組模塊,該模塊將連續幀的通道特征分離成N個子通道,并對每個幀的對應子通道特征沿時間維度拼接,構成子通道特征時間序列。然后,利用通道BERT自注意力機制對重構的子通道組建立通道特征交互模型,其根據子通道組之間的相似性計算提取隨時間變化差異較大的關鍵子通道特征序列以及它們之間的交互相關性,增強子通道組和相鄰視頻幀間的交互關系,獲得區分動作類別的關鍵語義特征。為同時提取幀圖像特征中通道和時間維度的交互相關性,提出聯合-BERT模型,通過將提取通道相關性的和提取時間相關性的兩條分支融合起來,可以進一步關注關鍵幀中的關鍵通道語義特征,提升行為識別精度。同時,通道BERT模塊(70)和時間BERT模塊(71)采用權重共享策略,從而降低整體模型的權重數目。
近年來,與本發明提出的基于BERT模型的通道特征交互時間建模行為識別方法類似的研究和專利如下:
在2020年ECCV(European Conference on Computer Vision)會議上Kalfaoglu等人發表的文章“Late Temporal Modeling in 3D CNN Architectures with BERT forAction Recognition”采用BERT來替換3D CNN末端的TGAP層來學習視頻幀中的重要時間特征,增強CNN主干網絡的后期時間建模能力。對比而言,本發明采用2D CNN提取視頻的空間特征,并利用BERT獲得視頻時間幀之間的關聯性,同時還增加提取幀圖像通道特征之間相關性的通道BERT。先設計通道重組模塊在子通道特征序列內提取所有相鄰幀的通道信息,之后利用通道BERT的自注意力機制對不同子通道特征序列進行相似性計算,學習視頻幀中的關鍵通道語義特征。另外,本發明設計的基于BERT模型的通道特征交互時間建模行為識別方法采用二維卷積替換三維卷積來提取每幀圖像的語義特征,在很大程度上節約計算成本,減少參數量,提高模型的計算效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211083801.X/2.html,轉載請聲明來源鉆瓜專利網。





