[發明專利]一種基于激活函數改進的YOLOv3算法在審
| 申請號: | 202010880785.1 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112364974A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 王蘭美;朱衍波;褚安亮;廖桂生;王桂寶;孫長征;賈建科 | 申請(專利權)人: | 西安電子科技大學;陜西理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 激活 函數 改進 yolov3 算法 | ||
1.一種基于激活函數改進的YOLOv3算法,包含以下步驟:
步驟一:下載當前目標檢測領域通用數據集PASCAL VOC數據集,保證與該領域通用數據集保持一致,以達到比對效果,檢測本發明方法性能;
步驟二:以改進的激活函數為基礎,重建YOLOv3網絡結構;
步驟三:在PASCAL VOC數據集對上述模型進行訓練;
步驟四:對比經典的YOLOv3算法,分析測試結果。
2.根據權利要求書1所述的一種基于激活函數改進的YOLOv3算法,步驟一:下載當前目標檢測領域通用數據集VOC數據集,PASCAL VOC數據集提供了20個對象類別;本發明用到的數據集中圖片為標注了目標的類別信息pi及該目標所在的中心位置坐標(x,y)及目標的寬度w和高度h,用矩形框可視化。
3.根據權利要求書1所述的一種基于激活函數改進的YOLOv3算法,步驟二:以改進的激活函數為基礎,重建YOLOv3網絡結構;
首先,對網絡的初始權重進行隨機化,使其服從高斯正態分布,然后輸入一張RGB圖片,這張圖片可以表示為a×a×3的矩陣形式,其中a為圖片的寬度和高度;
隨后,輸入矩陣會經由下面構建的網絡結構,由52個卷積層組成,分為三個階段,即三個不同尺度的輸出;具體如下,其中“×”代表乘積:
通過第1層卷積層,卷積核尺寸為3×3,步長為2,個數為32,得到208×208×32的特征圖輸出;進入第2層卷積層,卷積核尺寸為3×3,步長為1,個數為32,得到208×208×32的特征圖輸出,以此類推;依據網絡圖中的各層不同的卷積核,分別進入三個不同階段依次得到52×52×256的特征圖、26×26×512的特征圖和13×13×1024的特征圖,然后進入特征融合層1,2,3繼續進行特征融合操作,分別如下:
特征融合層1是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到52×52×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到52×52×75的特征圖1;
特征融合層2是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到26×26×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到26×26×75的特征圖2;
特征融合層3是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到13×13×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到13×13×75的特征圖3;
其中,每個卷積層分別包含3個操作:
第一步:對輸入該層的特征圖矩陣做卷積運算;
第二步:將上一步得到的卷積結果進行批量歸一化處理,將數據全部歸一化為[0,1]之間,得到歸一化之后的二維矩陣,有利于加快訓練速度;
第三步:將上一步得到的歸一化之后的二維矩陣作為激活函數的輸入,得到該層的最終輸出;
激活函數的公式如下:
y=x×tanh(ln(1+ex))
其中x是上一步得到的歸一化之后的二維矩陣,tanh()是雙曲正切函數,得到的y是每個神經元經過激活函數后的計算值;將非線性特性的激活函數引入到本發明的網絡中,這樣會保證輸入輸出之間是非線性映射關系,而不是簡單的線性組合的關系,從而能夠保證網絡的學習能力;
特征提取模塊的輸出為三個特征矩陣,這三個特征矩陣的維度分別為52×52×75、26×26×75和13×13×75,其中52×52×75的特征矩陣中每一個神經元的感受野是最小的,可以負責檢測原始輸入圖像中的小目標,同理,13×13×75的特征矩陣中每一個神經元的感受野是最大的,可以負責檢測原始輸入圖像中的大目標;這樣進行多尺度預測,可以避免小目標漏檢的情況;
其中以13×13×75特征圖為例,第一個維度13代表圖片中橫向像素點的個數,第二個維度13代表圖片中縱向像素點的個數,第三個維度75代表感興趣目標特征數,包含3個尺度的信息,每個尺度的信息又包含25個信息點,25個信息點分別為預測框的4個坐標信息txi,tyi,twi,thi、預測置信度和類別概率其中類別信息其中(txi、tyi)表示第i個預測框中心點的坐標參數值,(twi、thi)表示第i個預測框寬和高的參數值,預測置信度表示第i個預測框包含目標的概率,類別概率為多維向量,表示了第i個預測框的目標是某一類別的概率;需要注意的一點是,txi,tyi,twi,thi這四個參數是相對位置坐標,需要轉化為最終在原始圖片中的實際坐標;轉換的公式如下:
其中,txi,tyi,twi,thi是預測的相對坐標值,pw、ph表示預測框對應錨框的寬度以及高度,cx、cy表示預測框相對圖片左上角位置坐標的偏移量,表示預測框中心點實際坐標,表示預測框的實際寬度以及實際高度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學;陜西理工大學,未經西安電子科技大學;陜西理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880785.1/1.html,轉載請聲明來源鉆瓜專利網。





