[發明專利]一種基于EIoU改進的YOLOv3算法在審
| 申請號: | 202010892321.2 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112418212A | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 王蘭美;褚安亮;梁濤;廖桂生;王桂寶;孫長征;陳正濤 | 申請(專利權)人: | 西安電子科技大學;陜西理工大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 eiou 改進 yolov3 算法 | ||
1.一種基于EIoU改進的YOLOv3算法,包含以下步驟:
步驟一:下載當前目標檢測領域通用數據集COCO數據集,保證與該領域通用數據集保持一致,以達到比對效果,檢測本發明方法性能;
步驟二:重建YOLOv3網絡體系,并以步驟一中所選取的數據集為基礎,訓練YOLOv3網絡,輸出權重文件Q,檢測其性能,并做好對比資料;
步驟三:針對當前基于IoU的損失LIoU在預選框被目標框完全包裹情況下無法進行梯度回傳的不足,提出改進版的基于EIoU表示的損失函數LEIoU,并將其嵌入算法模型,進行訓練檢測其性能;
步驟四:對比經典的YOLOv3算法,分析測試結果。
2.根據權利要求書1所述的一種基于EIoU改進的YOLOv3算法,步驟一:下載當前目標檢測領域通用數據集COCO數據集,COCO的全稱是Microsoft Common Objectsin Context,是微軟團隊提供的一個可以用來進行圖像識別的數據集,COCO數據集提供了80個對象類別,本發明用到的數據集中圖片的標注類型為object detection(目標檢測)類型,其表現為標注了圖片中感興趣目標的類別信息pi及該目標所在的中心位置坐標(x,y)及目標的寬度w和高度h,用矩形框可視化;選取這個數據集與該領域通用數據集保持一致,以達到比對效果,檢測本發明方法性能。
3.根據權利要求書1所述的一種基于EIoU改進的YOLOv3算法,步驟二:重建YOLOv3網絡體系,并以步驟一中所選取的數據集為基礎,訓練YOLOv3網絡,輸出權重文件Q,檢測其性能,并做好對比資料,具體網絡模型及訓練過程如下:
YOLOv3算法的主體網絡結構由52個卷積層組成,分為三個階段,即三個不同尺度的輸出;1~26層卷積為階段1,27~43層卷積為階段2,44~52層卷積為階段3,階段1的輸出也就是第26個卷積層的輸出感受野小,負責檢測小目標,階段2的輸出也就是第43個卷積層的輸出感受野居中,負責檢測中等大小的目標,階段3的輸出也就是第52個卷積層的輸出感受野大,容易檢測出大目標;
首先網絡隨機初始化權值,使初始化的值服從高斯正態分布,然后輸入像素為416×416×3的圖片,通過第1層卷積層,卷積核尺寸為3×3,步長為1,個數為32,得到416×416×32的特征圖輸出;進入第2層卷積層,卷積核尺寸為3×3,步長為2,個數為64,得到208×208×64的特征圖輸出,以此類推;依據網絡圖中的各層不同的卷積核,分別進入三個不同階段依次得到52×52×256的特征圖、26×26×512的特征圖和13×13×1024的特征圖,然后進入特征交互層1,2,3繼續進行卷積操作,分別如下:
特征交互層1是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×128,、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到52×52×128的特征圖,并進行3×3×256和1×1×255的卷積操作,得到52×52×255的特征圖1;
特征交互層2是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×256,、3×3×512、1×1×256、3×3×512和1×1×256,步長均為1,得到26×26×256的特征圖,并進行3×3×512和1×1×255的卷積操作,得到26×26×255的特征圖2;
特征交互層3是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×512,、3×3×1024、1×1×512、3×3×1024和1×1×512,步長均為1,得到13×13×512的特征圖,并進行3×3×1024和1×1×255的卷積操作,得到13×13×255的特征圖3;
以52×52×255特征圖1為例進行說明:第一個維度52代表圖片中橫向像素點的個數,第二個維度52代表圖片中縱向像素點的個數,第三個維度255代表感興趣目標特征數,包含3個尺度的信息,每個尺度的信息又包含85個信息點,85個信息點分別為:感興趣目標所在的中心位置坐標(x,y)、目標的寬度w和高度h,以及類別信息pi和置信度C,其中類別信息pi=80;故3×(1+1+1+1+80+1)=255;特征圖2和特征圖3各維度的意義與特征圖1相同;
經過上述網絡模型得到感興趣目標的預測框信息,將預測框與真實框進行比對,計算損失誤差,包括IoU損失LIoU,置信度損失損失LC,類別損失LP,計算公式如下:
1.IoU損失LIoU
LIoU表示目標位置損失值:
LIoU=1-IoU
其中IoU的計算已給出,參照圖5;
2.置信度損失
置信度損失使用的函數為二值交叉熵函數:
LC=obj_loss+noobj_loss
其中,N表示網絡預測的邊界框的總數,表示第i個預測的邊界框中是否存在目標,若存在,則若不存在,則Ci表示目標所在第i個邊界框的置信度,表示網絡預測的第i個邊界框的置信度;
3.類別損失
其中,pi表示目標所在第i個邊界框中各類別的概率,表示網絡預測的第i個邊界框中各類別的概率;
最終的損失函數L為:
L=LIoU+LC+LP
本發明根據精度要求設定迭代閾值epoch=100,當迭代次數小于epoch時,利用Adam優化算法進行權值更新直到損失值低于設定的閾值或迭代次數大于epoch,結束訓練過程,并輸出權重文件Q1,Q1中包含訓練過程中各個網絡層的各參數的權重系數及偏移量,而后對訓練結果進行性能檢測;
綜上,具體訓練過程可簡化總結如下:
(1)網絡隨機初始化權值,使初始化的值服從高斯正態分布;
(2)輸入圖片數據經過本發明步驟二中的網絡模型輸出三個不同尺度的特征圖,并利用此特征圖得到預測框信息;
(3)將預測框與真實框進行比對,此階段計算損失誤差主要包括IoU損失LIoU,置信度損失損失LC,類別損失LP;
(4)此時當迭代次數小于epoch=100時,利用Adam優化算法進行權值更新,直到損失值低于設定的閾值或迭代次數大于epoch,結束訓練過程,并輸出權重文件,而后對訓練結果進行性能檢測;本發明方法的主要測試指標為mAP(mean Average Precision),代表平均的平均精確度,首先是一個類別內,求平均精確度(Average Precision),然后對所有類別的平均精確度再求平均(mean Average Precision)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學;陜西理工大學,未經西安電子科技大學;陜西理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010892321.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:板式換熱器
- 下一篇:抗CD123嵌合抗原受體(CAR)用于癌癥治療





