[發(fā)明專利]一種基于激活函數(shù)改進的YOLOv3算法在審
| 申請?zhí)枺?/td> | 202010880785.1 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112364974A | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計)人: | 王蘭美;朱衍波;褚安亮;廖桂生;王桂寶;孫長征;賈建科 | 申請(專利權(quán))人: | 西安電子科技大學;陜西理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 激活 函數(shù) 改進 yolov3 算法 | ||
1.一種基于激活函數(shù)改進的YOLOv3算法,包含以下步驟:
步驟一:下載當前目標檢測領(lǐng)域通用數(shù)據(jù)集PASCAL VOC數(shù)據(jù)集,保證與該領(lǐng)域通用數(shù)據(jù)集保持一致,以達到比對效果,檢測本發(fā)明方法性能;
步驟二:以改進的激活函數(shù)為基礎(chǔ),重建YOLOv3網(wǎng)絡(luò)結(jié)構(gòu);
步驟三:在PASCAL VOC數(shù)據(jù)集對上述模型進行訓練;
步驟四:對比經(jīng)典的YOLOv3算法,分析測試結(jié)果。
2.根據(jù)權(quán)利要求書1所述的一種基于激活函數(shù)改進的YOLOv3算法,步驟一:下載當前目標檢測領(lǐng)域通用數(shù)據(jù)集VOC數(shù)據(jù)集,PASCAL VOC數(shù)據(jù)集提供了20個對象類別;本發(fā)明用到的數(shù)據(jù)集中圖片為標注了目標的類別信息pi及該目標所在的中心位置坐標(x,y)及目標的寬度w和高度h,用矩形框可視化。
3.根據(jù)權(quán)利要求書1所述的一種基于激活函數(shù)改進的YOLOv3算法,步驟二:以改進的激活函數(shù)為基礎(chǔ),重建YOLOv3網(wǎng)絡(luò)結(jié)構(gòu);
首先,對網(wǎng)絡(luò)的初始權(quán)重進行隨機化,使其服從高斯正態(tài)分布,然后輸入一張RGB圖片,這張圖片可以表示為a×a×3的矩陣形式,其中a為圖片的寬度和高度;
隨后,輸入矩陣會經(jīng)由下面構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu),由52個卷積層組成,分為三個階段,即三個不同尺度的輸出;具體如下,其中“×”代表乘積:
通過第1層卷積層,卷積核尺寸為3×3,步長為2,個數(shù)為32,得到208×208×32的特征圖輸出;進入第2層卷積層,卷積核尺寸為3×3,步長為1,個數(shù)為32,得到208×208×32的特征圖輸出,以此類推;依據(jù)網(wǎng)絡(luò)圖中的各層不同的卷積核,分別進入三個不同階段依次得到52×52×256的特征圖、26×26×512的特征圖和13×13×1024的特征圖,然后進入特征融合層1,2,3繼續(xù)進行特征融合操作,分別如下:
特征融合層1是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數(shù)依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到52×52×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到52×52×75的特征圖1;
特征融合層2是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數(shù)依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到26×26×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到26×26×75的特征圖2;
特征融合層3是一個卷積模塊,包含5步卷積操作,卷積核尺寸及個數(shù)依次為1×1×128、3×3×256、1×1×128、3×3×256和1×1×128,步長均為1,得到13×13×128的特征圖,然后進行3×3×75和1×1×75的卷積操作,最終得到13×13×75的特征圖3;
其中,每個卷積層分別包含3個操作:
第一步:對輸入該層的特征圖矩陣做卷積運算;
第二步:將上一步得到的卷積結(jié)果進行批量歸一化處理,將數(shù)據(jù)全部歸一化為[0,1]之間,得到歸一化之后的二維矩陣,有利于加快訓練速度;
第三步:將上一步得到的歸一化之后的二維矩陣作為激活函數(shù)的輸入,得到該層的最終輸出;
激活函數(shù)的公式如下:
y=x×tanh(ln(1+ex))
其中x是上一步得到的歸一化之后的二維矩陣,tanh()是雙曲正切函數(shù),得到的y是每個神經(jīng)元經(jīng)過激活函數(shù)后的計算值;將非線性特性的激活函數(shù)引入到本發(fā)明的網(wǎng)絡(luò)中,這樣會保證輸入輸出之間是非線性映射關(guān)系,而不是簡單的線性組合的關(guān)系,從而能夠保證網(wǎng)絡(luò)的學習能力;
特征提取模塊的輸出為三個特征矩陣,這三個特征矩陣的維度分別為52×52×75、26×26×75和13×13×75,其中52×52×75的特征矩陣中每一個神經(jīng)元的感受野是最小的,可以負責檢測原始輸入圖像中的小目標,同理,13×13×75的特征矩陣中每一個神經(jīng)元的感受野是最大的,可以負責檢測原始輸入圖像中的大目標;這樣進行多尺度預測,可以避免小目標漏檢的情況;
其中以13×13×75特征圖為例,第一個維度13代表圖片中橫向像素點的個數(shù),第二個維度13代表圖片中縱向像素點的個數(shù),第三個維度75代表感興趣目標特征數(shù),包含3個尺度的信息,每個尺度的信息又包含25個信息點,25個信息點分別為預測框的4個坐標信息txi,tyi,twi,thi、預測置信度和類別概率其中類別信息其中(txi、tyi)表示第i個預測框中心點的坐標參數(shù)值,(twi、thi)表示第i個預測框?qū)捄透叩膮?shù)值,預測置信度表示第i個預測框包含目標的概率,類別概率為多維向量,表示了第i個預測框的目標是某一類別的概率;需要注意的一點是,txi,tyi,twi,thi這四個參數(shù)是相對位置坐標,需要轉(zhuǎn)化為最終在原始圖片中的實際坐標;轉(zhuǎn)換的公式如下:
其中,txi,tyi,twi,thi是預測的相對坐標值,pw、ph表示預測框?qū)?yīng)錨框的寬度以及高度,cx、cy表示預測框相對圖片左上角位置坐標的偏移量,表示預測框中心點實際坐標,表示預測框的實際寬度以及實際高度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學;陜西理工大學,未經(jīng)西安電子科技大學;陜西理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880785.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





