[發(fā)明專(zhuān)利]用于圖像目標(biāo)檢測(cè)處理的錨框生成方法及輕量級(jí)目標(biāo)檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010889934.0 | 申請(qǐng)日: | 2020-08-28 |
| 公開(kāi)(公告)號(hào): | CN112101430B | 公開(kāi)(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計(jì))人: | 饒?jiān)撇?/a>;郭毅;程奕茗;薛俊民 | 申請(qǐng)(專(zhuān)利權(quán))人: | 電子科技大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 電子科技大學(xué)專(zhuān)利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 圖像 目標(biāo) 檢測(cè) 處理 生成 方法 輕量級(jí) | ||
本發(fā)明公開(kāi)了一種用于圖像目標(biāo)檢測(cè)處理的錨框生成方法及輕量級(jí)目標(biāo)檢測(cè)方法,屬于圖像目標(biāo)檢測(cè)技術(shù)領(lǐng)域。本發(fā)明提出的錨框生成方式,基于自身數(shù)據(jù)集的不同,生成更適合自身應(yīng)用場(chǎng)景的預(yù)選框,以代替當(dāng)前基于錨點(diǎn)檢測(cè)器的人工設(shè)置或K?means生成方式;同時(shí)基于本發(fā)明的錨框生成方式提出了一種用于目標(biāo)檢測(cè)處理的輕量級(jí)目標(biāo)檢測(cè)方法,進(jìn)而提升目標(biāo)檢測(cè)處理在計(jì)算量、FPS和復(fù)雜度等方面的檢測(cè)性能。本發(fā)明在生成錨框生時(shí),采用基于密度的方法對(duì)數(shù)據(jù)集中的真實(shí)盒進(jìn)行聚類(lèi),以獲得盒的最優(yōu)長(zhǎng)度和寬度,降低后續(xù)計(jì)算的復(fù)雜度。以及采用多尺度輸出對(duì)不同尺度的物體進(jìn)行預(yù)測(cè),采取多層次輸出檢測(cè)結(jié)果;同時(shí))利用分離卷積來(lái)改進(jìn)基本卷積層,降低模型的復(fù)雜度。
技術(shù)領(lǐng)域
本發(fā)明屬于圖像目標(biāo)檢測(cè)技術(shù)領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的輕量級(jí)目標(biāo)檢測(cè)方案。
背景技術(shù)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)三大基礎(chǔ)問(wèn)題之一,在自動(dòng)駕駛、圖像/視頻檢索、視頻監(jiān)控等領(lǐng)域有著重要的應(yīng)用,目標(biāo)檢測(cè)領(lǐng)域的研究具有十分重要的意義。在目標(biāo)檢測(cè)領(lǐng)域添加或改進(jìn)的任何組件如果帶來(lái)了新的計(jì)算瓶頸,在實(shí)際應(yīng)用中,實(shí)際效果就會(huì)因場(chǎng)景不同而變化,往往會(huì)更糟。但是,如果對(duì)基本構(gòu)件的改進(jìn)能夠在不影響再訓(xùn)練模型的情況下提高整個(gè)場(chǎng)景的有效性,那么這種改進(jìn)將會(huì)被廣泛接受,具有良好的應(yīng)用前景。
在目標(biāo)檢測(cè)中,通常先設(shè)置一些候選框,然后通過(guò)網(wǎng)絡(luò)逐層回歸這些框。這些候選框應(yīng)該具有代表性,能夠廣泛的代表實(shí)際場(chǎng)景中框的大小。否則,框?qū)⒑茈y回歸,最終的預(yù)測(cè)框也不適合真實(shí)框。在兩階段檢測(cè)器Faster-RCNN(Faster R-CNN:Towards Real-timeObject Detection with Region Proposal Networks)中,手動(dòng)設(shè)置長(zhǎng)寬比和圖像大小,設(shè)定錨框(錨盒),最終通過(guò)錨框生成種不同大小的候選框。在單階段檢測(cè)器YOLO(You OnlyLook Once)中,通過(guò)計(jì)算IoU(Intersection over Union),采用改進(jìn)的K-means算法對(duì)數(shù)據(jù)集中的真實(shí)框進(jìn)行聚類(lèi),最終生成若干組不同尺度的錨框,再把圖片分成多個(gè)小格,在每個(gè)小格上通過(guò)錨框生成多個(gè)候選框。人工方法不具備解釋性,也沒(méi)有嚴(yán)格的數(shù)學(xué)證明。由于Faster-RCNN是基于多個(gè)錨點(diǎn)進(jìn)行計(jì)算的,每個(gè)錨點(diǎn)在中心位置都會(huì)產(chǎn)生一個(gè)對(duì)應(yīng)尺度的候選框,不具有代表性的高寬比會(huì)給后續(xù)計(jì)算帶來(lái)額外的計(jì)算開(kāi)銷(xiāo)。目標(biāo)檢測(cè)模型需要在檢測(cè)精度和檢測(cè)速度之間進(jìn)行權(quán)衡,輕量級(jí)網(wǎng)絡(luò)需要降低模型的復(fù)雜度,為移動(dòng)設(shè)備的部署做好準(zhǔn)備。輕量級(jí)網(wǎng)絡(luò)還需要輸出不同大小的目標(biāo),過(guò)于簡(jiǎn)單,缺乏深度特征提取和融合的過(guò)程。
從Faster-RCNN提出錨框概念開(kāi)始,大多數(shù)目標(biāo)檢測(cè)算法在生成候選框時(shí)都依賴(lài)于初始錨框的設(shè)置。而錨框的位置坐標(biāo)信息為:(x1,y1,x2,y2),即表示錨框左上角和右下角的坐標(biāo)。根據(jù)SPP-net(SPP-Net:Deep Absolute Pose Regression with SyntheticViews)和多尺度圖像金字塔思想,反向得到足夠的錨框。由于Faster-RCNN包含大量的錨點(diǎn),每個(gè)錨點(diǎn)產(chǎn)生9個(gè)錨框,可以覆蓋各種尺度和形狀的目標(biāo)。但是這種方法產(chǎn)生太多的錨框,導(dǎo)致冗余的框,如圖1所示。
YOLO檢測(cè)器使用K-means算法生成錨點(diǎn),如圖2所示。YOLO使用真實(shí)框大小作為聚類(lèi)算法的輸入。來(lái)自YOLO9000(YOLO9000:Better,Fater,Stronger)的結(jié)果如表1所示。
表1
以上兩種算法都有不足之處:
1)錨點(diǎn)的生成方法來(lái)源于圖像特征金字塔模型。錨的邏輯可以通過(guò)特征圖的逆向計(jì)算來(lái)解釋。但是,手動(dòng)設(shè)置錨值生成的先驗(yàn)框不能很好地表示數(shù)據(jù)集中的真實(shí)框。對(duì)于手動(dòng)設(shè)置的錨值,沒(méi)有數(shù)學(xué)邏輯上的證明。
2)人工設(shè)置K個(gè)聚類(lèi)中心,迭代更新聚類(lèi)中心的值時(shí),需要計(jì)算所有剩余點(diǎn)的IOU,計(jì)算量太大。
3)K-means在第一輪迭代中隨機(jī)初始化聚類(lèi)中心。且如果初始的聚類(lèi)中心選擇錯(cuò)誤,將會(huì)非常耗時(shí),甚至?xí)绊懽罱K的結(jié)果。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于電子科技大學(xué),未經(jīng)電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010889934.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 目標(biāo)檢測(cè)裝置、學(xué)習(xí)裝置、目標(biāo)檢測(cè)系統(tǒng)及目標(biāo)檢測(cè)方法
- 目標(biāo)監(jiān)測(cè)方法、目標(biāo)監(jiān)測(cè)裝置以及目標(biāo)監(jiān)測(cè)程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測(cè)方法和目標(biāo)檢測(cè)裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





