[發(fā)明專利]一種用于對金字塔特征圖進(jìn)行預(yù)測的算法在審
| 申請?zhí)枺?/td> | 202011069030.X | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112183649A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設(shè)計)人: | 楊淑愛;陳俊杰;李澤輝 | 申請(專利權(quán))人: | 佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術(shù)發(fā)展有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/54;G06N3/04;G06Q10/04;G06T3/40;G06T7/73 |
| 代理公司: | 廣東廣信君達(dá)律師事務(wù)所 44329 | 代理人: | 江金城 |
| 地址: | 528225 *** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 金字塔 特征 進(jìn)行 預(yù)測 算法 | ||
1.一種用于對金字塔特征圖進(jìn)行預(yù)測的算法,其特征在于,包括如下步驟:
步驟S1:選取和劃分?jǐn)?shù)據(jù)集,并對數(shù)據(jù)集的輸入的圖片進(jìn)行預(yù)處理操作;
步驟S2:搭建類FCOS的網(wǎng)絡(luò)架構(gòu),對其中的head部分進(jìn)行修改并設(shè)定為新網(wǎng)絡(luò)結(jié)構(gòu);
步驟S3:將輸入數(shù)據(jù)送入backbone網(wǎng)絡(luò)中獲取輸入數(shù)據(jù)的特征圖,在特征圖的每一點上面進(jìn)行回歸操作,進(jìn)行網(wǎng)絡(luò)訓(xùn)練獲取網(wǎng)絡(luò)模型;
步驟S4:將預(yù)訓(xùn)練的網(wǎng)絡(luò)模型應(yīng)用到測試圖片中,從特征金字塔的多個Head中獲得預(yù)測的結(jié)果;
步驟S5:使用NMS等后處理操作獲得最終的結(jié)果;用測試集對選出的模型進(jìn)行測試,評估模型性能;將本模型的實驗結(jié)果和SOTA的一些模型進(jìn)行準(zhǔn)確率和速度的比較,權(quán)衡下來得到的網(wǎng)絡(luò)結(jié)構(gòu)能夠在速度和性能上得到理想的平衡,效果顯著提升。
2.根據(jù)權(quán)利要求1所述的用于對金字塔特征圖進(jìn)行預(yù)測的算法,其特征在于,所述步驟S1還包括如下步驟:
步驟S11:采用COCO目標(biāo)檢測類別數(shù)據(jù)集,訓(xùn)練集采用COCO trainval35k set(115Kimages),驗證集采用COCO minival set(5K images),測試集采用test-dev set(20Kimages)。
3.根據(jù)權(quán)利要求1所述的用于對金字塔特征圖進(jìn)行預(yù)測的算法,其特征在于,所述步驟S1中,預(yù)處理操作包括均值化、去霧、裁剪操作。
4.根據(jù)權(quán)利要求1所述的用于對金字塔特征圖進(jìn)行預(yù)測的算法,其特征在于,所述的S2步驟還包括如下步驟:
步驟S21:所述新網(wǎng)絡(luò)結(jié)構(gòu)由三部分組成,分別是主干網(wǎng)絡(luò)(backbone network),特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Networks),以及預(yù)測網(wǎng)絡(luò);
步驟S22:所述主干網(wǎng)絡(luò)的選取采用殘差網(wǎng)絡(luò)(ResNet-50)來提取特征,每層卷積模塊結(jié)構(gòu)類似,都是采用多個bottleneck殘差塊組成,每層模塊中的第一層都要做下采樣,通過用3*3的卷積核步長為2,作最大池化的操作;選取ResNet-5最后三個卷積模塊,分別記為conv3、conv4、conv5,得到的特征圖記為C3、C4、C5;
步驟S23:FPN特征金字塔網(wǎng)絡(luò)是由主干網(wǎng)絡(luò)提取特征后的不同維度的特征圖經(jīng)過相加操作得到的,對于該部分的網(wǎng)絡(luò)也可以分為兩部分,上采樣部分和下采樣部分;FPN特征金字塔網(wǎng)絡(luò)結(jié)合網(wǎng)絡(luò)的淺層特征和深層特征,然后在多個分支同時輸出不同大小的目標(biāo),充分使用網(wǎng)絡(luò)的淺層特征和深層特征;
步驟S24:預(yù)測網(wǎng)絡(luò)是對不同層級的特征層進(jìn)行預(yù)測,不同特征層共享head網(wǎng)絡(luò),可以有效地提升檢測器參數(shù)的效率,提升檢測的性能,但是不同的特征層對應(yīng)不同的回歸尺寸范圍(P3是[0,64],P4是[64,128]),每個head網(wǎng)絡(luò)結(jié)構(gòu)都相同,都包含有回歸分支和分類分支,并且每條分支經(jīng)過四個卷積層后再分為兩支,一支經(jīng)過邊界對齊模塊,一個不作處理;新加入了兩條連有邊界對齊模塊的支路,得到經(jīng)過邊界信息提取的邊界特征圖,然后根據(jù)這些新的分類得分和邊框位置和舊的相結(jié)合,得到更新后的分類得分和邊框位置;能夠突出邊框的邊界信息,并且能有效提升預(yù)測的性能。
5.根據(jù)權(quán)利要求4所述的用于對金字塔特征圖進(jìn)行預(yù)測的算法,其特征在于,所述步驟S24還包括如下步驟:
步驟S241:對于預(yù)測網(wǎng)絡(luò)中的邊界對齊模塊,它包含一個邊界對齊操作器和兩層1*1卷積層,它的作用是用來對特征圖的信息增加其邊界的敏感度,對于C個通道里表示著限定框的單點特征的特征圖,先對其進(jìn)行1*1的卷積改變通道數(shù),后跟著一個實例正則化的操作,生成五倍于原先通道的特征圖,4C通道中每C通道都表示著一條邊界的信息,還有C通道表示著原來單點特征的信息,對于5C通道特征圖,通過操作器進(jìn)行邊界對齊操作,然后再降維,還原為輸入模塊前的C通道特征圖;
步驟S242:對于邊界對齊操作器,用來顯式、自適應(yīng)的提取物體邊界的特征,對于一個特征圖,通道個數(shù)為5C,這是一個邊界敏感的特征圖,分別對應(yīng)物體4個邊界特征和原始錨點位置的特征,對于一個錨點預(yù)測的一個框,把這個框的4個邊界對應(yīng)在特征圖上的特征分別做池化操作,且由于框的位置是小數(shù),所以該操作使用雙線性插值取出每個邊界上的特征;關(guān)于該操作,每條邊會先選出N個待采樣點,再對這N個待采樣點取最大的值,作為該條邊的特征,即每條邊最后只會選出一個采樣點作為輸出;那么每個錨點都會采樣5個點的特征作為輸出,即輸出的通道數(shù)也為5C個。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術(shù)發(fā)展有限公司,未經(jīng)佛山市南海區(qū)廣工大數(shù)控裝備協(xié)同創(chuàng)新研究院;佛山市廣工大數(shù)控裝備技術(shù)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011069030.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





