[發明專利]一種基于三階級聯架構的YOLOv3的遠景目標檢測方法有效
| 申請號: | 202110534466.X | 申請日: | 2021-05-17 |
| 公開(公告)號: | CN113239813B | 公開(公告)日: | 2022-11-25 |
| 發明(設計)人: | 張學睿;尚明生;張帆;姚遠;鄭志浩 | 申請(專利權)人: | 中國科學院重慶綠色智能技術研究院;重慶大學 |
| 主分類號: | G06V10/82 | 分類號: | G06V10/82;G06V10/774;G06V10/34;G06V10/762;G06V10/75;G06N3/04;G06N3/08 |
| 代理公司: | 重慶強大凱創專利代理事務所(普通合伙) 50217 | 代理人: | 趙玉乾 |
| 地址: | 400714 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 階級 架構 yolov3 遠景 目標 檢測 方法 | ||
1.一種基于三階級聯架構的YOLOv3的遠景目標檢測方法,其特征在于,該方法具體包括以下步驟:
S1:構建目標檢測模型:將準備好的遠景農作物圖片作為樣本圖片,再使用視覺相干混合技術和幾何手段進行數據增強,形成遠景數據集后再使用圖像標注軟件進行標注,最后通過三階級聯架構的YOLOv3算法進行訓練,生成目標檢測模型;構建目標檢測模型的具體步驟包括:
S101:準備遠景農作物樣本圖像作為數據集;
S102:采用視覺相干混合技術處理數據集,找到和數據集總數量相同且大小一樣的其它農作物的圖片,按0.1:0.9的比例將兩個數據集在像素層面上進行混合,得到混合后的遠景數據集;
S103:對混合后的遠景數據集采用幾何手段進行數據增強,對一半的圖片采用隨機水平翻轉,對另一半的圖片采用隨機顏色抖動,包括調整亮度、色調、飽和度以及對比度,將所有圖片放在一起,形成最終用來訓練的遠景數據集;
S104:通過圖像標注軟件LabelImg對圖像進行數據標注,生成與所標注圖片文件名相同的xml文件;
S105:使用K_Means算法計算樣本數據集的聚類中心,對于遠景數據集,將傳統YOLOv3設置的九個聚類中心增加到十二個聚類中心;
S106:將樣本數據集按照4:2:4的比例劃分為訓練集、驗證集和測試集;
S107:將訓練集圖片調整成不同尺寸構建圖像金字塔輸入網絡中,經過三階級聯架構與Darknet53提取圖片的特征,將特征進行按照隨機權重進行融合并把融合后的特征送到三個YOLO檢測層中,將特征圖劃分為三個不同數量的單元格,輸出帶有YOLO層所畫預測框的圖;
S108:對比YOLO層所畫預測框和anchor的坐標,采用logistic方式回歸坐標偏移量;
S109:同時使用logistic回歸對每個檢測框中存在物體的可能性進行評分,記為置信度,選出置信度最高的檢測框保留,其余框刪除;
S110:置信度評分后,網絡會對檢測框中的物體進行分類;
S111:將預測結果同訓練集的標注進行比較,判斷是否訓練完,如果未訓練完成,則根據比較結果和損失函數繼續訓練;如果訓練完成,則結束訓練,生成權重;
S112:將形成的權重通過剪枝算法,設置剪枝系數,縮小權重的大小及參數量,形成最終的目標檢測模型;
S2:采集檢測目標的視頻圖像,輸入目標檢測模型中進行目標檢測,得到含有置信得分的目標圖;進行目標檢測的具體步驟包括:
S201:輸入一張任意大小的圖片,保持圖片的長寬比不變并將圖片尺寸隨機縮放到16的倍數,形成歸一化圖像輸入網絡;
S202:通過三階的級聯卷積神經網絡對任務進行從粗到細進行處理;
三階級聯的每個階段的網絡都是一個多任務網絡;處理任務有三個:物體/非物體判定、物體檢測框回歸和特征點定位;其中,物體/非物體判定采用cross-entropy損失函數,物體檢測回歸采用歐式距離損失函數,特征點定位采用歐式距離損失函數;
S203:將經過級聯架構處理后的圖像,通過YOLOv3的主干網絡,采用殘差結構和小卷積核提取圖片特征,并將其每層特征層按隨機權重分配后進行特征融合;按淺層特征與深層特征對檢測功能的貢獻度不同,將淺層特征層賦予權重在0~0.5之間的隨機數w1,后面的深層特征則賦予0.5-1之間的隨機數w2;
p(yi|x)=soft max(g(vx)+w1*fi(vx)+w2fj(vx))
其中,vx表示某一張被預測為x的圖片,g為網絡層最后層的卷積函數,fi表示淺層的卷積函數,fj表示第二層卷積函數;
S204:使用特征金字塔結構,設置三個不同尺寸的檢測層分別針對大目標和小目標進行檢測,并以此輸出一個13*13×25的張量,一個26*26*25和一個52*52*25的張量;其中,在每個預測向量中,第1~5維為對應網格的第一個預測邊框及其置信度,第6~10維為對應網格的第二個預測邊框及其置信度,第11~15維為對應網格的第三個預測邊框及其置信度,第16~20維為對應網格的第四個預測邊框及其置信度,第21~25維對應網格中檢測到的目標所屬對應類別的概率;
S205:通過設置置信度閾值,將低于置信度閾值的預測邊框刪除;
S3:通過非極大值抑制算法比較置信度得分,得到目標的位置信息和置信度信息;
S4:根據得到的位置信息,對目標個數進行計算總數,得到最終的目標位置信息和數量信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院重慶綠色智能技術研究院;重慶大學,未經中國科學院重慶綠色智能技術研究院;重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110534466.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種BI系統圖表查詢自動化測試方法
- 下一篇:文本意圖識別模型的訓練方法





