[發明專利]一種基于注意力機制的餐廳后廚人員行為識別方法在審
| 申請號: | 201911035532.8 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110826447A | 公開(公告)日: | 2020-02-21 |
| 發明(設計)人: | 顏津;蔡強;毛典輝 | 申請(專利權)人: | 北京工商大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100048*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 機制 餐廳 人員 行為 識別 方法 | ||
本發明公開了一種基于注意力機制的餐廳后廚人員行為識別方法,目的是有效地識別餐廳后廚視頻中的人體行為,實現對后廚的監控管理。本發明包括:利用攝像頭采集后廚人員的工作視頻,構建一個視頻包含一個明確動作的數據庫,并對其切幀、提取光流圖像;將視頻幀輸入到基于空間注意力機制的空間流網絡中,得到空間特征;將光流圖像輸入到基于長短時記憶網絡的時間流網絡中,得到時序特征;將空間、時序特征分別輸入到分類器中,得到分類得分,進行得分融合,完成后廚人員行為的識別。在本發明中,加入了空間注意力機制,使得模型更加關注空間上更重要的點;長短時記憶網絡更好的保留了視頻中的時序信息,從而提高了后廚人員行為識別的準確率。
技術領域
本發明涉圖像理解與計算機視覺領域,具體涉及一種人體行為識別方法。
背景技術
隨著經濟與科技的快速發展,視頻監控系統的需求不斷地增加,如停車場、超市、商場、銀行、工廠、礦山、餐廳后廚等地方。挖掘視頻中的人體行為信息成為了重大發展方向。
簡單來說,行為識別就是對一給定的視頻片段進行分類,類別通常是人的各類動作,即檢測出人體的行為動作,更好掌握視頻中人的行為信息。如今明廚亮灶越來越受大家重視,對餐廳后廚視頻中人體行為是否存在違規情況進行檢測的需求不斷增大,實現實時監控管理,對食品衛生情況也可以有所保障。
現在用于圖像分類的卷積神經網絡已經達到了很好的效果,但是如果將其直接應用于視頻數據上,結果就顯得不盡人意了。因為視頻相對于圖片來說,多了時序信息,因此對于視頻數據的處理來說,提取其時序信息是至關重要的。目前基于深度學習的行為識別方法主要有雙流網絡和3D卷積網絡兩種,還有部分學者提出了另外一些思路,如受限玻爾茲曼機(Restricted Boltzmann Machines,RBM),循環神經網絡(Recurrent NeuralNetworks,RNN),獨立子空間分析(Independent Subspace Analysis,ISA)等。其中,雙流網絡由時間流網絡和空間流網絡組成,分別通過2D卷積來獲取視頻的時序信息、空間信息,最后融合雙流網絡分類得分,完成對人體行為的識別;3D卷積網絡通過3D卷積可單流完成空間、時序信息的捕捉。還有基于以上兩種情況的改進,比如偽3D卷積網絡(P3D、R(2+1)D),還有雙流網絡和3D卷積網絡的結合(I3D)。3D卷積網絡相比于2D卷積可以更好的捕捉時空信息,但是他需要昂貴的計算消費和存儲需求。
因此,本專利提出了一個針對餐廳后廚視頻數據進行人體行為識別的方法,它是比現有2D卷積網絡可以更好地捕捉時空特征的雙流網絡,且不需要像3D卷積網絡樣需要昂貴的計算消費和存儲需求,并應用于后廚視頻監控管理中,對餐廳后廚人員進行行為識別,也可以及時發現違規行為,為食品安全帶來了更大的保障。
本發明的網絡以視頻幀與光流圖像作為輸入,加入了注意力機制和長短時記憶網絡,更好的捕獲餐廳后廚視頻中的時空信息。光流是空間運動物體在觀察成像平面上的像素運動的瞬時速度。利用光流圖像捕獲時許信息的方法是光流法,即通過視頻幀在時間域上的變化,以及通過相鄰幀之間的相關性來找到當前幀與前一幀之間的對應關系,從而可以計算出相鄰幀之間人體行為信息的方法。長短時記憶網絡是一種遞歸神經網絡,可以學習長期依賴關系。長短時記憶網絡內部主要有三個階段:忘記階段、選擇記憶階段和輸出階段。對上一個節點傳進來的輸入進行選擇性忘記,并且將這個階段的輸入有選擇性地進行“記憶”,最后決定哪些將會被當成當前狀態的輸出。通過門控狀態來控制傳輸狀態,記住需要長時間記憶的,忘記不重要的信息,從而更好的捕捉到視頻中的時序信息。
發明內容
針對上述問題,本發明提出了一種基于注意力機制的人體行為識別方法,在雙流網絡中引入長短時記憶網絡來捕獲視頻的時序信息,并加入注意力機制來獲得更高的人體行為識別精度。
本發明包括以下步驟:
(1)利用攝像頭采集后廚人員的工作視頻,構建一個視頻有一個明確動作的后廚視頻數據庫,對于視頻數據進行預處理,包括視頻切幀以及提取光流圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工商大學,未經北京工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911035532.8/2.html,轉載請聲明來源鉆瓜專利網。





