[發明專利]一種基于視頻流的抽煙行為和打電話行為識別方法在審
| 申請號: | 202011193873.0 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112257643A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 王景彬;張欽海;黃艷;朱健立;周南南 | 申請(專利權)人: | 天津天地偉業智能安全防范科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 天津企興智財知識產權代理有限公司 12226 | 代理人: | 李彥彥 |
| 地址: | 300384 天津市濱海新區高新*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 抽煙 行為 打電話 識別 方法 | ||
1.一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:包括以下步驟:
S1:采集模型訓練的數據集,從監控設備中獲取現場視頻數據,然后將獲取的數據集進行數據增強處理;
S2:安裝編譯支持3D卷積的caffe框架;
S3:搭建基于Tiny_darknet-3D深度學習的分類網絡架構,將數據集分別送入抽煙分類的3D卷積網絡和打電話分類的3D卷積網絡;
S4:設置訓練網絡模型的超參數,利用隨機梯度下降算法進行模型的迭代訓練;
S5:從待監測場景的監控設備中,直接獲取監控視頻流,從而獲取待檢測圖像信息;
S6:將步驟S5中獲取的視頻數據送入步驟S3中預先訓練好的模型進行3D卷積處理,并輸出分類結果,模型輸出的分類結果包括目標所屬的類別和對應的置信值;
S7:根據目標的置信值,設置一個閾值,去除置信值較低的目標,排除誤檢,根據檢測出抽煙或打電話的視頻流進行隨機的圖像抓取,然后保存圖像。
2.根據權利要求1所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:步驟S1中利用的數據增強處理包括鏡像處理、高斯模糊、視頻旋轉;
數據集中訓練集和測試集的樣本比例為10∶1。
3.根據權利要求1所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:步驟S1中利用的卷積網絡采用Tiny_darknet-3D網絡,網絡每次輸入大小resize為224*224的8幀視頻圖片,用(c,l,h,w)大小來表示一個視頻片段,c表示每一幀圖像的channel,l表示視頻的幀數,h,w表示視頻的圖像寬高,(d,k,k)表示卷積核,d表示的就是時間維度的核大小,k表示空間維度的核大小。
4.根據權利要求3所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:卷積網絡選取的卷積核為(3,3,3),即將時間維度看成是第三維,3D卷積通過堆疊多個連續的幀組成一個立方體,然后在立方體中運用3D卷積核對8幀圖片進行融合卷積,在這個結構中,卷積層中每一個map都會與上一層中多個鄰近的連續幀相連,以捕捉物體的運動信息。
5.根據權利要求3所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:訓練采用隨機裁剪的方式,h和w大小不小于160像素,卷積網絡包括15個卷積層、6個池化層、1個全連接層、1個softmax損失函數層。
6.根據權利要求5所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:每次訓練采用32個視頻片段,即mini_batch=32。
7.根據權利要求1所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:步驟S1中利用的設置訓練網絡模型的超參數是指設置初始學習率為0.001,每迭代16000次學習率下降0.1,總共降4次,訓練的總迭代次數一般設置為每組數據訓練4次。
8.根據權利要求1所述的一種基于視頻流的抽煙行為和打電話行為識別方法,其特征在于:步驟S3中利用的Tiny_darknet-3D網絡的softmaxWithLoss層中loss值的計算方法如下公式所示:
其中,為標簽值,k為圖像標簽對應的神經元,Loss抽煙或打電話為模型損失函數,zi為模型預測類別的概率輸出值,m為最大類別概率輸出值,即m=max(zi)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津天地偉業智能安全防范科技有限公司,未經天津天地偉業智能安全防范科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011193873.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種單軌行車運輸裝置
- 下一篇:一種云資源內存利用率準確性優化方法





