[發明專利]一種基于SlowFast的電力作業現場動作識別方法有效
| 申請號: | 202011030237.6 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112183313B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 王波;張迎晨;馬富齊;羅鵬;周胤宇;張天;王紅霞;馬恒瑞;李怡凡;張嘉鑫 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/94;G06V10/774;G06V10/82;G06K9/62;G06F16/75;G06N3/04;G06N3/08 |
| 代理公司: | 蘇州導思知識產權代理事務所(普通合伙) 32425 | 代理人: | 龔建良 |
| 地址: | 430067 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 slowfast 電力 作業 現場 動作 識別 方法 | ||
1.一種基于SlowFast的電力作業現場動作識別方法,包括以下步驟:
第一步,采集作業現場視頻圖像樣本,針對每種作業類型進行視頻采集;
第二步,人工視頻預處理及標注,通過人工將采集得到的視頻數據以人為畫面中心進行裁剪,將視頻尺寸進行歸一化處理,按作業類型進行分類,通過視頻剪輯,提取每種作業過程中的動作,按動作先后順序將剪輯后的視頻片段進行標注;
第三步,構建模型,利用Pytorch框架將視頻中包含的圖像信息、紋理特征、邊緣信息、光流信息進行提取,將提取出的特征信息輸入到神經網絡,由神經網絡計算模型參數,并輸出基于視頻的動作識別結果;
第四步,模型訓練,基于已處理好的帶標注的視頻數據進行神經網絡訓練,通過驗證集和測試集識別結果優化模型參數,對特殊的識別困難樣本,可進行數據集補充以及修正標注,將新數據輸入模型繼續訓練,通過專業的圖形計算加速卡輔助計算,多次迭代后獲得高精度動作識別模型;
第五步,模型評估,通過采集現場作業新視頻數據,或現場實地測試動作模型,驗證模型識別效果;
其中,實現步驟一的具體操作為:
準備5個可見光攝像頭,布置在作業現場,圍繞作業人員,從5個視角拍攝作業人員的作業畫面,每種作業重復多次,并拍攝倒閘、接地、驗電作業三類作業視頻;
其中,實現步驟二的具體操作為:
(1)將步驟一中采集的視頻數據,按作業類型進行分類;
(2)從電力現場作業規范中獲取每種作業的規范動作,并制作成標簽列表,例如倒閘作業的標簽列表中:行標題為作業步驟序號,列標題為作業步驟具體動作名稱;
(3)依據標簽列表對每段完整的作業視頻進行動作切分,每個視頻片段包含的動作對應于標簽列表中的具體動作名稱;
(4)將剪輯后的視頻片段,按照作業類型已經動作標簽重新整理;
其中,實現步驟三的具體操作為:
(1)在超算平臺上安裝算法實現需要的開發環境;
(2)SlowFast網絡在時空中通過定向濾波捕獲特征信息,時間與空間通過視頻幀提取間隔來區分,將視頻幀按16幀間隔提取,即獲取圖像跨度較大的少量幀作為Slow支路的輸入,將視頻幀按2幀間隔提取,即獲取圖像跨度小的大量幀作為Fast支路的輸入,綜合兩條路徑提取的特征信息能有效分析動作包含的語義信息,實現對動作時空的分析;
(3)SlowFast網絡在空間維度上保持視頻原始幀作為輸入,即保留了空間分辨率1080P和可見光RGB顏色信息;
(4)SlowFast網絡在空間維度上,輸入的視頻幀較少,但其需要分析提取的關鍵信息多且復雜,細粒程度更高,從而會產生大量的計算,大約占據80%算力,在時間維度上,輸入的視頻幀較多,但其需要分析提取的關鍵信息少且簡單,細粒程度較低,從而不會產生大量的計算,只消耗約20%的算力;
(5)SlowFast網絡中包含單向的由Fast支路指向Slow支路的側向連接通道,將兩種特征信息進行融合,兩條支路輸入的視頻幀數不同,其特征圖的維度也不同,在進行側向連接時,對Fast支路的特征圖利用5*1*1的3D卷積核進行尺度變換,Slow支路的特征圖求和,實現特征融合;
(6)將兩條支路提取的特征信息進行串聯后,輸入全連接層進一步提取特征;
(7)將(6)中提取后的特征輸入sigmoid回歸層進行回歸計算,得到預測值;
(8)根據標簽列表查詢預測值對應的動作標簽,即為預測動作;
其中,實現步驟四的具體操作為:
(1)將整理好的動作數據集輸入模型中,模型自動提取視頻幀;
(2)將(1)中提取的視頻幀進行數據增強,增強方法包含高斯模糊、隨機光照、水平翻轉;
(3)將(2)中增強后的數據,依預設分別輸入Slow支路與Fast支路;
(4)兩條支路進行一系列特征提取與特征融合后,將特征向量輸入sigmoid回歸層進行回歸計算,得到預測值;
(5)根據標簽列表查詢預測值對應的動作標簽,即為預測動作;
(6)在驗證集將(5)中得到的預測動作標簽與真實動作標簽對比,計算驗證集預測精度;
(7)依據(6)中獲得的驗證集精度,對模型參數進行調整,迭代訓練;
(8)多輪訓練后獲得的理想模型參數在測試集上的預測精度即為最終模型的預測精度;
其中,實現步驟五的具體操作為:
(1)在現場布置攝像頭拍攝作業人員的作業畫面,將視頻流通過數據傳輸接口直接輸入模型中;
(2)由模型實時預測作業人員的動作,并記錄預測結果;
(3)由(2)中的預測結果分析模型實際應用效果,并以此為依據,增加數據集以及調整模型參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011030237.6/1.html,轉載請聲明來源鉆瓜專利網。





