[發明專利]基于BERT模型的通道特征交互時間建模行為識別方法在審
| 申請號: | 202211083801.X | 申請日: | 2022-09-06 |
| 公開(公告)號: | CN115457657A | 公開(公告)日: | 2022-12-09 |
| 發明(設計)人: | 李曉潮;楊曼;甘利鵬 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06V10/77;G06V10/80;G06N3/04;G06N3/08 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 模型 通道 特征 交互 時間 建模 行為 識別 方法 | ||
1.基于BERT模型的通道特征交互時間建模行為識別方法,其特征在于其具體步驟如下:
1)將動作視頻分解成對應的RGB圖像序列輸入二維卷積神經網絡,提取B,T,C,H,W維度特征圖;其中,B表示分批量訓練時輸入視頻幀的批量數,C表示通道數,T表示T幀連續圖像,H、W表示輸入圖像的高和寬;
2)將提取的特征圖輸入池化模塊進行空間平均池化操作,得到B,T,C維度的特征序列F;
3)將特征序列F分別輸入聯合-BERT自注意力模型的兩個分支,分別進行通道和時間特征提取:在第1個分支中,將提取到的特征序列F輸入通道重組模塊,輸出的重組子通道特征序列XC經通道BERT模塊加權處理后通過全連接層輸出進行預測,得到行為識別的第一預測矩陣;在第2個分支中,特征序列F輸入時間BERT模塊中,通過全連接層輸出得到行為識別的第二預測矩陣;第1個分支和第2個分支中的通道BERT模塊和時間BERT模塊共享參數;
4)將第一預測矩陣和第二預測矩陣加權融合后輸入分類模塊,得到行為識別的分類結果。
2.如權利要求1所述基于BERT模型的通道特征交互時間建模行為識別方法,其特征在于在步驟3)中,所述聯合-BERT自注意力模型包括兩個分支,提取通道間相關性的第1個分支和圖像幀間的時間相關性的第2個分支;第1個分支用于從重組子通道組的語義特征中,利用多頭自注意力機制對子通道建立相互作用,獲得區分動作類別的關鍵語義特征及其相關性;第2個分支用于利用自注意力機制在不同時刻圖像幀融合時,根據幀之間的相似性計算提取出關鍵的圖像幀。
3.如權利要求1所述基于BERT模型的通道特征交互時間建模行為識別方法,其特征在于在步驟3)中,所述將特征序列F分別輸入聯合-BERT自注意力模型的兩個分支,分別進行通道和時間特征提取的具體步驟包括:
(1)在第1個分支中,基于通道重組模塊和通道BERT模塊獲得區分動作類別的關鍵通道語義特征及其相關性,將二維卷積神經網絡提取到的特征序列F輸入通道重組模塊,在通道重組模塊中將相鄰幀對應子通道特征沿時間維度進行重組拼接,構成包含時間變化關系的子通道特征時間序列;輸出的重組子通道特征序列XC經通道BERT模塊進行自注意力計算,提取出隨時間變化差異較大的關鍵子通道特征以及它們之間的交互相關性;根據子通道特征序列間的相關性進行加權處理,經全連接層輸出得到行為識別的第一預測矩陣,實現通道特征交互在時間維度的建模;
2)在第2個分支中,直接把池化后的特征序列F輸入時間BERT模塊中,計算視頻幀之間的相似性,通過全連接層輸出得到行為識別的第二預測矩陣。
4.如權利要求1所述基于BERT模型的通道特征交互時間建模行為識別方法,其特征在于在步驟3)中,所述通道重組模塊,包含通道分離模塊和子通道特征序列;將特征序列F輸入通道分離模塊,沿著通道維度將其平均分割成N個子通道,每個子通道包含C/N個通道特征,即F′=[F′(1),F′(2),...,F′(N)],其中將相鄰幀對應子通道特征F′沿著時間維度進行拼接,得到子通道特征序列,其中NC=T×C/N;對于第n(1≤n≤N))個子通道組有表示每個子通道組內包含T幀圖像特征序列信息。
5.如權利要求1所述基于BERT模型的通道特征交互時間建模行為識別方法,其特征在于在步驟3)中,所述通道BERT模塊,包含位置編碼層、多頭自注意力機制模塊、通道連接模塊和全連接層;通道重組模塊輸出的特征序列XC被輸入通道BERT模塊的位置編碼層對位置信息進行編碼,得到位置嵌入特征將位置嵌入特征輸入多頭自注意力機制模塊的多頭注意力機制和位置前饋網絡PFFN(·)層,通過自注意計算和PFFN(·)層的非線性映射,得到能突出通道差異且子通道組相互作用的矩陣將所有子通道組的輸出YC輸入通道連接模塊沿著通道維度進行拼接,得到與特征F通道維度相同的矩陣yC;將矩陣yC輸入全連接層得到行為識別的第一預測矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211083801.X/1.html,轉載請聲明來源鉆瓜專利網。





