[發明專利]基于深度學習的行人檢測模型構建方法及行人檢測方法有效
| 申請號: | 201911309623.6 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111191535B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 李旻先;張基文 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 行人 檢測 模型 構建 方法 | ||
1.一種基于深度學習的行人檢測模型構建方法,其特征在于,包括以下步驟:
步驟A1,對行人數據集做預處理,然后利用特征提取網絡,提取行人特征,生成特征圖;
步驟A2,將特征圖和先驗框輸入預測網絡,生成預測框并作為新的先驗框,然后將特征圖和新的先驗框輸入預測網絡,生成行人預測框;
步驟A3,利用行人數據集訓練用于檢測行人的深度卷積神經網絡,并輸出訓練好的用于檢測行人的深度卷積神經網絡;所述深度卷積神經網絡的損失由Focal Loss分類損失和具有吸引和排斥功能的定位損失組成;
所述深度卷積神經網絡由特征提取網絡和預測網絡兩個子網絡構成;
使用ResNet-50網絡作為特征提取網絡的基礎網絡,在特征提取網絡后面添加若干卷積層作為預測網絡;
使用ResNet-50網絡中stage3、stage4和stage5的最后一層作為三個不同尺度的特征圖,然后在它們后面分別添加一個卷積層作為第四個特征圖;預測網絡為,在特征提取網絡的后面添加一個3*3的卷積層,然后附加兩個1*1的分支卷積層;
所述深度卷積神經網絡的損失函數,其構建方法具體為:使用Focal Loss作為分類損失,定位損失包括具有定位功能的吸引項和具有輔助定位功能的排斥項;
吸引項使用GIoU損失函數,排斥項使用改進的Repulsion Loss損失函數;
其中
G和P分別表示真實框和預測框,g表示所有真實框,P+表示預測框中所有正樣本,C表示G與P的最小閉包矩形,表示除了與P匹配的真實框以外的其他的與P具有最大GIoU的真實框,ρ是比例系數。
2.根據權利要求1所述的基于深度學習的行人檢測模型構建方法,其特征在于,所述預處理包括對行人標簽的處理和數據增強兩部分,其中對行人標簽的處理是保留行人高度大于50像素的行人真實框,數據增強包括圖像隨機裁剪、圖像翻轉、調節圖像亮度和圖像扭曲。
3.根據權利要求1所述的基于深度學習的行人檢測模型構建方法,其特征在于,利用特征提取網絡,可以得到4種不同尺度的特征圖,分辨率分別為80*160*512、40*80*1024、20*40*2048和10*20*2048;利用預測網絡可以得到預測框和每個預測框對應的分類置信度。
4.根據權利要求3所述的基于深度學習的行人檢測模型構建方法,其特征在于,通過兩步預測的方式,預測網絡利用特征圖和先驗框生成預測框和分類置信度,其預測步驟具體為:
首先,將特征圖和預設的先驗框輸入預測網絡,得到第一步預測的預測框,然后,將第一步預測得到的預測框作為新的先驗框,并與特征圖共同輸入預測網絡,得到第二步預測的預測框。
5.根據權利要求4所述的基于深度學習的行人檢測模型構建方法,其特征在于,所述的先驗框為預設的候選窗口,對于特征圖的每一個位置,輸出這個位置上4種尺度和4種長寬比的16個候選窗口。
6.一種基于權利要求1~5任意一項所述基于深度學習的行人檢測模型構建方法的行人檢測方法,其特征在于,包括如下步驟:
步驟B1,輸入待檢測行人圖像;
步驟B2,利用訓練好的特征提取網絡提取待檢測圖像的特征,生成特征圖,并通過訓練好的預測網絡生成檢測框;
步驟B3,利用非極大值抑制策略對步驟B2中生成的檢測框進行篩選,并輸出行人檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911309623.6/1.html,轉載請聲明來源鉆瓜專利網。





