[發(fā)明專利]目標(biāo)檢測方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)有效
| 申請?zhí)枺?/td> | 201811273526.1 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN110163057B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 羅棟豪;王亞彪;崔志鵬;汪鋮杰;李季檁;黃飛躍;吳永堅(jiān) | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06V40/16 | 分類號: | G06V40/16;G06V20/40;G06V10/82;G06N3/0464 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 于小寧 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo) 檢測 方法 裝置 設(shè)備 計(jì)算機(jī) 可讀 介質(zhì) | ||
公開了一種目標(biāo)檢測方法、裝置、設(shè)備和計(jì)算機(jī)可讀介質(zhì)。所述方法包括:利用第一卷積神經(jīng)網(wǎng)絡(luò)從輸入圖像中提取輸入特征圖像,其中所述輸入特征圖像的尺寸小于所述輸入圖像的尺寸;利用第二卷積神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像執(zhí)行卷積處理;以及利用第三卷積神經(jīng)網(wǎng)絡(luò)對所述第二卷積神經(jīng)網(wǎng)絡(luò)輸出的經(jīng)過卷積處理的輸入特征圖像執(zhí)行預(yù)測,并根據(jù)所述第三卷積神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測結(jié)果確定目標(biāo)所在的區(qū)域的位置。
技術(shù)領(lǐng)域
本公開涉及圖像處理領(lǐng)域,具體涉及一種利用卷積神經(jīng)網(wǎng)絡(luò)執(zhí)行的目標(biāo)檢測方法、裝置、設(shè)備以及計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù)
基于深度學(xué)習(xí)的方法是目前常見的目標(biāo)檢測方法,例如兩階段法如RCNN、Fast-RCNN、Faster-RCNN或一階段法SSD、YOLO、DSSD、SSH等。通過上述通用的目標(biāo)檢測方法,可以檢測多個(gè)類別的目標(biāo),例如人臉。例如通過設(shè)置用作候選區(qū)域的“錨”(anchor)來回歸出目標(biāo)的位置并分類得到目標(biāo)的類別。
在只需要單一類別的目標(biāo)檢測的使用場景下,可以使用針對特定目標(biāo)設(shè)計(jì)的檢測器(如人臉檢測器MRCNN、S3FD等)進(jìn)行特定目標(biāo)的檢測。
然而,現(xiàn)有的目標(biāo)檢測模型都存在速度較慢、模型較大的缺點(diǎn)。例如兩階段法的Faster-CNN在普通CPU上的運(yùn)行速度約為10s/幀。一階段法如YOLO算法在普通CPU上的運(yùn)行速度約為2s/幀。為了滿足目標(biāo)檢測的實(shí)時(shí)性要求,需要提供一種速度更快的目標(biāo)檢測模型。
發(fā)明內(nèi)容
為此,本公開提供了一種利用卷積神經(jīng)網(wǎng)絡(luò)執(zhí)行的目標(biāo)檢測方法、裝置、設(shè)備以及計(jì)算機(jī)可讀介質(zhì)。
根據(jù)本公開的一個(gè)方面,提供了一種目標(biāo)檢測方法,包括:利用第一卷積神經(jīng)網(wǎng)絡(luò)從輸入圖像中提取輸入特征圖像,其中所述輸入特征圖像的尺寸小于所述輸入圖像的尺寸;利用第二卷積神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像執(zhí)行卷積處理;以及利用第三卷積神經(jīng)網(wǎng)絡(luò)對所述第二卷積神經(jīng)網(wǎng)絡(luò)輸出的經(jīng)過卷積處理的輸入特征圖像執(zhí)行預(yù)測,并根據(jù)所述第三卷積神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測結(jié)果確定目標(biāo)所在的區(qū)域的位置。
在一些實(shí)施例中,利用第一卷積神經(jīng)網(wǎng)絡(luò)從輸入圖像中提取輸入特征圖像包括:利用第一卷積層將輸入圖像變換成特征圖像,其中所述特征圖像的通道數(shù)多于所述輸入圖像的通道數(shù);利用第一池化層對所述特征圖像進(jìn)行池化以獲得池化后的特征圖像;利用第二卷積層對所述特征圖像進(jìn)行卷積以獲得卷積后的特征圖像;利用拼接層拼接所述池化后的特征圖像和所述卷積后的特征圖像;利用第三卷積層將所述拼接層輸出的特征圖像變換為具有預(yù)設(shè)通道數(shù)的特征圖像;以及利用第二池化層對具有預(yù)設(shè)通道數(shù)的特征圖像進(jìn)行池化,以獲得所述輸入特征圖像。
在一些實(shí)施例中,利用第二卷積神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像執(zhí)行卷積處理包括:利用級聯(lián)的多個(gè)第一語義提取神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像進(jìn)行卷積處理,對于所述級聯(lián)的多個(gè)第一語義提取神經(jīng)網(wǎng)絡(luò)中的每一個(gè),所述卷積處理包括:對該第一語義提取神經(jīng)網(wǎng)絡(luò)的輸入特征執(zhí)行多路卷積,其中各路卷積的感受野大小互不相同;利用加法操作融合各路卷積輸出的結(jié)果;以及輸出融合的各路卷積的結(jié)果作為該第一語義提取神經(jīng)網(wǎng)絡(luò)的輸出。
在一些實(shí)施例中,所述多路卷積中的至少一路卷積包括深度可分離卷積。
在一些實(shí)施例中,利用第二卷積神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像執(zhí)行卷積處理還包括:利用第三池化層對所述級聯(lián)的多個(gè)第一語義提取神經(jīng)網(wǎng)絡(luò)中的至少一個(gè)第一語義提取神經(jīng)網(wǎng)絡(luò)的輸出執(zhí)行池化,以獲得更小尺寸的特征圖像。
在一些實(shí)施例中,所述第二卷積神經(jīng)網(wǎng)絡(luò)還包括第二語義提取神經(jīng)網(wǎng)絡(luò),利用第二卷積神經(jīng)網(wǎng)絡(luò)對所述輸入特征圖像執(zhí)行卷積處理還包括利用第二語義提取神經(jīng)網(wǎng)絡(luò)執(zhí)行以下操作:對所述級聯(lián)的多個(gè)第一語義提取神經(jīng)網(wǎng)絡(luò)的輸出執(zhí)行多路卷積,其中各路卷積的感受野大小互不相同,利用加法操作融合各路卷積輸出的結(jié)果,以及輸出融合的各路卷積的結(jié)果作為所述第二語義提取神經(jīng)網(wǎng)絡(luò)的輸出,其中,所述第二語義提取神經(jīng)網(wǎng)絡(luò)中的至少一路卷積包括擴(kuò)張卷積。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811273526.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)檢測裝置、學(xué)習(xí)裝置、目標(biāo)檢測系統(tǒng)及目標(biāo)檢測方法
- 目標(biāo)監(jiān)測方法、目標(biāo)監(jiān)測裝置以及目標(biāo)監(jiān)測程序
- 目標(biāo)監(jiān)控系統(tǒng)及目標(biāo)監(jiān)控方法
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤設(shè)備
- 目標(biāo)跟蹤方法和目標(biāo)跟蹤裝置
- 目標(biāo)檢測方法和目標(biāo)檢測裝置
- 目標(biāo)跟蹤方法、目標(biāo)跟蹤裝置、目標(biāo)跟蹤設(shè)備
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)處理方法、目標(biāo)處理裝置、目標(biāo)處理設(shè)備及介質(zhì)
- 目標(biāo)跟蹤系統(tǒng)及目標(biāo)跟蹤方法





