[發明專利]一種基于深度集成網絡的視頻駕駛員疲勞檢測方法有效
| 申請號: | 202010790835.7 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN112101103B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 路小波;胡耀聰;陸明琦 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V20/40;G06V20/59;G06V10/56;G06V10/82;G06N3/04 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 集成 網絡 視頻 駕駛員 疲勞 檢測 方法 | ||
1.一種基于深度集成網絡的視頻駕駛員疲勞檢測方法,其特征在于,包括下列步驟:
步驟1:構建疲勞駕駛檢測數據集,使用臺灣交通大學公開的NTHU-DDD駕駛員疲勞檢測數據集,將該數據集的360個訓練視頻全部用于訓練深度集成網絡,其余的20個視頻用于模型測試;
步驟2:設計人臉檢測跟蹤算法,結合人臉檢測和目標跟蹤獲得視頻幀每一幀的人臉區域,在視頻的初始幀,MTCNN網絡用于檢測人臉,后續幀中,核相關濾波算法跟蹤人臉區域;
步驟3:構建風格遷移模塊,該模塊由一個編解碼生成網絡構成,用于復原輸入紅外視頻幀的顏色信息,輸出彩色視頻幀;
步驟301:使用CycleGAN模型在LFW人臉數據集上進行預訓練,獲得灰度圖像域X與彩色圖像域Y之間的兩個映射,分別記為:X→Y→X,Y→X→Y;CycleGAN模型包含兩個編解碼生成網絡GXY,GYX,兩個判別網絡DX,DY;給定灰度圖像x,x∈X,生成網絡GXY可以將灰度圖像x映射為對應的彩色圖像GXY(x),而生成網絡GYX對生成的彩色圖像進行復原并輸出重構圖像GYX(GXY(x)),判別網絡DY區分生成的彩色圖像GXY(x)和真實彩色圖像y,y∈Y;給定彩色圖像y,y∈Y,生成網絡GYX可以將彩色圖像y映射為對應的灰度圖像GYX(y),而生成網絡GXY對生成的灰度圖像進行復原并輸出重構圖像GXY(GYX(y)),判別網絡DX區分生成的灰度圖像GYX(y)和真實灰度圖像x,x∈X;
步驟302:讀取步驟301中預訓練編解碼生成網絡模型GXY的參數,用于圖像風格遷移;將紅外人臉視頻幀送入GXY中,輸出生成的彩色人臉視頻幀,該過程定義為:
IC=GXY(II|θgen) (1)
其中II表示紅外視頻幀,θgen為編解碼生成網絡的相關參數,IC表示輸出的彩色視頻幀;
步驟4:構建人臉關鍵點檢測模塊,該模塊采用全卷積神經網絡結構,以紅外視頻幀和風格遷移模塊生成的彩色視頻幀作為輸入,對人臉關鍵點進行定位并輸出掩膜特征圖;
步驟401:人臉關鍵點檢測模塊以MobileNet-V2作為骨架網絡,輸入包含紅外視頻幀II,彩色視頻幀IC,該模型的第一層為基礎卷積層,中間層結合深度可分離卷積和殘差學習加速特征提取,最后一層對紅外幀特征圖和彩色幀特征圖進行通道堆疊,并通過卷積運算得到人臉68個關鍵點對應的熱區圖該過程定義為:
其中II表示紅外視頻幀,IC表示輸出的彩色視頻幀,θmob為MobileNet-V2模型的相關參數,表示人臉關鍵點熱區圖的預測值;
步驟402:采用雙線性插值對預測的關鍵點熱區圖進行上采樣,接著通過argmax函數獲得人臉關鍵點所對應的坐標值,該運算表示為:
其中表示第i個關鍵點所對應的熱區圖,為第i個關鍵點所對應的坐標;
步驟403:通過高斯核函數將人臉關鍵點映射為掩膜特征圖,該運算表示為:
其中為第i個關鍵點所對應的坐標,G表示高斯核函數,σ2為其對應的方差,IM表示生成的掩膜特征圖;
步驟5:構建分類模塊,該模塊由一個3D卷積神經網絡組成,集成紅外視頻序列的時空信息、彩色視頻序列的顏色信息、和掩膜特征序列的顯著性信息,判定駕駛員疲勞狀態,對于給定的連續相鄰T幀紅外人臉序列通過步驟3輸出生成的彩色人臉序列通過步驟4輸出掩膜特征序列分類模塊的輸入為VI,VC,VM,其中紅外人臉序列VI和彩色人臉序列VC送入一個參數共享的時空卷積分支中提取時空信息和顏色信息,掩膜特征序列VM送入另一個單獨的時空卷積分支中提取顯著性信息,隨后偽3D卷積分支對兩個時空卷積分支的輸出特征圖進行級聯和下采樣操作,即分解3×3×3時空卷積為1×3×3的空間卷積和3×1×1的時間卷積,加速特征提取運算,Softmax分類器融合紅外人臉序列特征圖和彩色人臉特征圖輸出疲勞相關狀態的分類得分,分類模塊的運算過程定義為:
score=3DCNN(VI,VC,VM|θ3dc,θcls) (5)
其中θ3dc和θcls分別表示3D卷積網絡和softmax分類器的參數,score={sdrow,seye,smou,shea}表示分類得分,包含輸入序列的整體疲勞得分和疲勞相關狀態的分類結果;
步驟6:模型訓練,使用Pytorch開源庫搭建深度集成神經網路模型,使用NVIDIA TITANX GPU,Ubuntu 18.04操作系統下訓練模型框架,實現視頻駕駛員疲勞檢測;
步驟601:預訓練風格遷移模塊和人臉關鍵點檢測模塊,其中CycleGAN模型在LFW數據集上進行預訓練,以學習從灰度圖像到彩色圖像的一個映射,MobileNet-V2模型在AFLW數據集上預訓練,實現快速人臉關鍵點定位和掩模特征圖生成;
步驟602:將風格遷移模塊和人臉關鍵點檢測模塊的輸出集成到分類模塊中以實現各模塊之間的互優化,其中風格遷移模塊包含以下的訓練任務:
(1)對于給定的連續相鄰T幀紅外人臉序列生成網絡GXY復原輸入紅外人臉序列的顏色信息并輸出彩色人臉序列生成網絡GYX對GXY生成的彩色人臉序列進行復原并輸出重構序列,其損失函數可表示為:
其中為輸入的第T'幀紅外人臉圖像,表示第T'幀的人臉重構結果,||·||1即表示輸入幀和重構幀的L1范數距離,即序列中逐幀循環一致性損失之和;
(2)生成網絡GXY復原輸入紅外人臉序列的顏色信息,以使得判別網絡DY無法判斷其真實性,具體可表示為:
其中表示生成的第T'幀彩色人臉圖像,而即序列中逐幀最小二乘損失之和;
(3)紅外人臉序列和生成的彩色人臉序列被送入人臉關鍵點檢測模塊中,其損失函數可表示為:
其中Mobile(·)表示MobileNet-V2網絡模型,其輸出為第T'幀人臉關鍵點熱區圖的預測值,HT'表示關鍵點熱區圖的真實值,即表示輸入幀和重構幀的L2范數距離,即序列中逐幀定位回歸損失之和;
(4)給定風格遷移模塊合成的彩色人臉序列VC和人臉關鍵點檢測模塊輸出的掩膜特征序列VM,分類模塊集成顏色信息和顯著性信息,準確的判定疲勞相關狀態,交叉損失熵函數優化softmax分類器,具體可表示為:
其中VI,VC和VM分別表示紅外人臉序列,彩色人臉序列和掩膜特征序列;輸出第j'個狀態的分類得分,α={αdrow,αeye,αmou,αhea}表示不同屬性的疲勞狀態的權重參數;
風格遷移模塊的訓練損失為不同學習任務的損失加權組合,最終的損失函數表示為:
其中表示風格遷移模塊中不同損失的權重參數;
人臉關鍵點檢測模塊以紅外人臉序列和風格遷移模塊生成的彩色人臉序列作為輸入,對人臉關鍵點進行定位并輸出掩膜特征圖,其損失函數Lmob即關鍵點熱區圖的回歸損失
分類模塊集成紅外視頻序列的時空信息、彩色視頻序列的顏色信息、和掩膜特征序列的顯著性信息,判定駕駛員疲勞狀態,其損失函數L3dc即softmax分類器的交叉熵損失
步驟7:使用訓練好的模型測試疲勞檢測結果。
2.根據權利要求1所述的一種基于深度集成網絡的視頻駕駛員疲勞檢測方法,其特征在于,步驟7的具體方法為:給定一個測試紅外視頻序列,通過步驟2獲取紅外人臉序列,利用步驟3的風格遷移模塊還原顏色信息并輸出彩色人臉序列利用步驟4的人臉關鍵點檢測模塊輸出掩膜特征序列,步驟5集成了步驟3和步驟4中提取的顏色信息和顯著信息,并最終輸出視頻中每幀的疲勞檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010790835.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種傳輸介質檢測方法、裝置及存儲介質
- 下一篇:數據處理方法及服務端設備





