[發明專利]YOLO和分塊-融合策略結合的稠密人臉檢測方法在審
| 申請號: | 202011566195.8 | 申請日: | 2020-12-25 |
| 公開(公告)號: | CN112541483A | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 徐光柱;屈金山;雷幫軍;劉鳴;石勇濤 | 申請(專利權)人: | 三峽大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 宜昌市三峽專利事務所 42103 | 代理人: | 吳思高 |
| 地址: | 443002 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | yolo 分塊 融合 策略 結合 稠密 檢測 方法 | ||
1.一種YOLO和分塊-融合策略結合的稠密人臉檢測方法,其特征在于包括以下步驟:
步驟1:對人臉訓練數據集進行數據增廣,擴充密集場景下的人臉樣本;
步驟2:構建YOLOv3和分塊-融合策略相結合的YOLOv3網絡模型,在檢測階段,將原圖進行分塊,并將分塊得到的子圖和原圖一同輸入到YOLOv3網絡模型中分別進行檢測;
步驟3:對NMS算法進行改進,解決大尺度人臉融合問題的同時提高小人臉檢測的精度。
2.根據權利要求1所述一種YOLO和分塊-融合策略結合的稠密人臉檢測方法,其特征在于:所述步驟1中,人臉訓練數據集采用WIDERFACE數據集,對原始WIDERFACE數據集中的原圖進行分塊,獲得分塊的子圖,來實現密集場景下稠密人臉樣本的擴充,同時保留有原始分辨率圖像的原圖。
3.根據權利要求1所述一種YOLO和分塊-融合策略結合的稠密人臉檢測方法,其特征在于:所述步驟1中,在分塊時,分割的子圖其寬度bw和高度bh的計算公式如下:
bw=(overlap_rate+1)*w/2 (1);
bh=(overlap_rate+1)*h/2 (2);
其中:w和h分別為原圖的寬和高,overlap_rate為分塊邊緣重疊率。
4.根據權利要求1所述一種YOLO和分塊-融合策略結合的稠密人臉檢測方法,其特征在于:所述步驟1中,在分塊的同時,對圖片分塊時根據不同的場景采取不同的策略,包括:
(a)對大尺度人臉不分塊;
(b)人臉殘缺和無人臉的分塊舍棄,僅保留人臉完整的分塊;
(c)密集場景下保留分塊區域,但不完整的大尺度人臉標注將被舍棄;
(d)密集場景下均勻分布人臉且無明顯尺度跨越則直接分塊。
5.根據權利要求1所述一種YOLO和分塊-融合策略結合的稠密人臉檢測方法,其特征在于:所述步驟2中,構建YOLOv3和分塊-融合策略相結合的YOLOv3網絡模型,YOLOv3網絡模型分為模型訓練和目標檢測兩個階段,具體如下:
模型訓練:
在模型訓練階段使用YOLOv3網絡模型進行訓練,訓練時使用步驟1中數據增廣后的人臉數據集,其中;YOLOv3網絡訓練損失函數如公式(3.1)~(3.6)所示:
YOLOv3損失函數包含邊界框中心點坐標損失Losscenter(,如公式(3.2);
邊界框寬高損失Losswh(,如公式(3.3);
目標置信度損失Lossscore(式,如公式(3.4)、公式(3.5);
目標類別損失Lossclass(,如公式(3.6);
式中,各變量的含義如下:其中SxS為網絡劃分圖片的網格數,B為每個網格預測的邊界框數目,為網格i中第j個邊界框的預測;其中各公式中變量的含義分別為:公式(3.2)λcoord為動態參數,為中心點坐標的真值,Cxyi為中心點坐標預測值;公式(3.3)中,和表示該目標寬度和高度的真實值,wi和hi分別表示該目標高度和寬度的預測值;公式(3.4)和公式(3.5)分別為包含目標時的置信度損失和不含目標時的置信度損失,其中λnoobj為不含目標時網絡的誤差系數,和Ci分別代表檢測目標的置信度真值和置信度預測值;式(3.6)中和為檢測目標概率的真值和目標概率的預測值;
目標檢測:
在目標檢測階段,利用模型訓練階段得到的權重文件進行檢測,檢測時首先將輸入圖片執行帶邊緣重疊的分塊,得到分塊與原圖共5張圖片,之后將分塊圖片與輸入圖片一同輸入到YOLOv3網絡中,在YOLOv3網絡中分別對5張圖片進行預測;其中,YOLOv3網絡對每張圖片進行預測的具體過程如下:
首先輸入圖片經過YOLOv3網絡的特征提取網絡darknet53,darknet53網絡包含53個卷積層,通過darknet53卷積之后,得到輸入圖片1/32尺寸的特征圖;以416*416*3尺寸的輸入圖片為例,通過darknet53網絡卷積后,將得到13*13*255尺寸的特征圖,在13*13*255特征圖的基礎上通過上采樣以及與淺層特征融合又分別得到26*26*255、52*52*25尺寸的特征圖,這3個尺度下的特征圖分別用于對大尺度、中尺度、小尺度目標進行預測;YOLOv3通過在這3個尺度下的特征圖上分別預測得到大、中、小3個尺度下的目標,其中YOLOv3網絡模型在特征圖上的目標檢測原理為,YOLOv3網絡對特征圖上的每個像素對應的網格,都會給出3個anchor進行預測,找到大小最合適的anchor,其中anchor由訓練前通過對數據集進行聚類得到,之后網絡輸出的4個偏移量,即可得到預測框;YOLOv3對每個預測邊界框,給出4個值,tx、ty、tw、th,這4個值和預測邊界框(bx、by、bw、bh)的映射關系如公式(4.1)~(4.4)所示;
bx=δ(tx)+cx (4.1)
by=δ(ty)+cy (4.2)
其中,tx、ty分別表示中心點偏移的量,tw、th則表示為預測邊界框的相對anchor的縮放量,其中pw、ph分別表示anchor的寬和高;δ(tx)、δ(ty)用于表示某個目標的中心點相對負責檢測這個目標的網格的偏移量,其中(Cx,Cy)表示中心點坐標所在的網格;
當YOLOv3網絡完成了原圖加分塊圖片一共5張圖片的預測之后,將其中4張分塊圖片的預測結果映射到原始圖片上,最終使用NMS算法去除冗余預測結果之后得到最終的檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三峽大學,未經三峽大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011566195.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:化合物、液晶組合物以及顯示裝置
- 下一篇:一種低阻日常防護口罩





