[發(fā)明專利]卷積神經(jīng)網(wǎng)絡(luò)和基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體檢測方法有效
| 申請?zhí)枺?/td> | 201310633797.4 | 申請日: | 2013-11-29 |
| 公開(公告)號: | CN104680508B | 公開(公告)日: | 2018-07-03 |
| 發(fā)明(設(shè)計)人: | 歐陽萬里;許春景;劉健莊;王曉剛 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06T7/00 | 分類號: | G06T7/00;G06T7/13;G06N3/04 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積神經(jīng)網(wǎng)絡(luò) 形變 處理層 分類器 遮擋 目標(biāo)物體檢測 部位檢測 目標(biāo)物體 特征提取 特征分辨 學(xué)習(xí)目標(biāo) 學(xué)習(xí) 優(yōu)化 聯(lián)合 | ||
本發(fā)明提供一種卷積神經(jīng)網(wǎng)絡(luò)和基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體檢測方法,所述卷積神經(jīng)網(wǎng)絡(luò)包括:特征提取層、部位檢測層、形變處理層、遮擋處理層和分類器,本發(fā)明實施例提供的卷積神經(jīng)網(wǎng)絡(luò),聯(lián)合了優(yōu)化特征提取、部位檢測、形變處理、遮擋處理和分類器學(xué)習(xí),通過形變處理層使得卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)目標(biāo)物體的形變,并且形變學(xué)習(xí)和遮擋處理進行交互,這種交互能提高分類器根據(jù)所學(xué)習(xí)到的特征分辨目標(biāo)物體和非目標(biāo)物體的能力。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)通訊技術(shù),尤其涉及一種卷積神經(jīng)網(wǎng)絡(luò)和基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體檢測方法。
背景技術(shù)
物體檢測是機器視覺中的基本的問題之一,檢測到物體后能方便對物體進行存儲、分析、3D建模、識別、跟蹤和搜索。常用的物體檢測如行人檢測,行人檢測的目的是在圖像中找出行人的位置和所占區(qū)域,行人檢測的主要難點是行人在著裝、光照、背景、身體形變和遮擋方面的變化。行人檢測時,首先,需要提取出能夠區(qū)別行人和非行人的特征,常用的方法有Haar-like特征和梯度直方圖(Histogram of Oriented Gradient,簡稱HOG)。其次,由于行人身體(如頭,身體,腿)的運動會產(chǎn)生行人視覺信息的形變,所以提出了可以形變的模型用于處理行人身體運動造成的形變。再次,為了解決由于遮擋造成的視覺信息丟失,很多處理遮擋的方法找出圖片中行人被遮擋的部位以避免用這些被遮擋的圖像信息來判斷給定矩形框中是否存在行人。最后,分類器用于判斷給定的矩形框中是否存在行人。
圖1為現(xiàn)有技術(shù)一的行人檢測方法示意圖,如圖1所示,現(xiàn)有技術(shù)一的行人檢測方法主要包括以下步驟:1、在第一階段對一幅輸入圖像進行卷積,對卷積后的結(jié)果進行下采樣得到第一階段的輸出;2、根據(jù)第一階段的輸出繼續(xù)進行卷積和下采樣得到第二階段中上面一行的輸出;3、第一階段的輸出通過支線進行下采樣得到第二階段中下面一行的輸出;4、根據(jù)第二階段的輸出進行分類。這種方法中,主要是學(xué)習(xí)特征提取,每一步在處理時對于處理結(jié)果并沒有一個明確的目標(biāo),因此,輸出結(jié)果是不可預(yù)見的,而且沒有對行人的身體運動和遮擋進行建模。當(dāng)行人圖像存在形變和遮擋時,效果較差。圖2為現(xiàn)有技術(shù)二的行人檢測的方法示意圖,該方法將行人分成由整個行人的模板構(gòu)成的根節(jié)點和由行人身體部分(如頭,腿上半部分,或者腿下半部分)構(gòu)成的子節(jié)點。子節(jié)點與根節(jié)點具有形變約束,例如頭不能離身體太遠(yuǎn)。如圖2所示,該現(xiàn)有技術(shù)的行人檢測方法包括以下步驟:1、對一幅輸入圖像進行特征提取,得到兩種不同分辨率(resolution)的特征圖(feature map);2、對低分辨率的特征圖使用作為根節(jié)點的濾波模板進行匹配,得到匹配后的響應(yīng);3、對高分辨率的特征圖使用作為子節(jié)點的濾波模板進行匹配,得到匹配后的響應(yīng)。圖2的模型中有5個子節(jié)點,所以有5個子節(jié)點的濾波模板,得到5個匹配后的響應(yīng);4、子節(jié)點的響應(yīng)通過與根節(jié)點的形變約束進行修正,得到修正后的響應(yīng);5、根據(jù)子節(jié)點的響應(yīng)和根節(jié)點的響應(yīng)得到對于行人是否存在的總體響應(yīng)?,F(xiàn)有技術(shù)二能夠?qū)ξ矬w部分形變進行建模,對身體運動更加魯棒,但是此技術(shù)在根據(jù)物體的特征圖與模板進行匹配時,使用人為定義的特征,不能自動學(xué)習(xí)特征,并且不能處理遮擋的情況。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種卷積神經(jīng)網(wǎng)絡(luò)和基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體檢測方法,能夠?qū)δ繕?biāo)物體的形變和遮擋進行處理。
本發(fā)明第一方面提供一種基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體檢測方法,所述卷積神經(jīng)網(wǎng)絡(luò)包括:特征提取層、部位檢測層、形變處理層、遮擋處理層和分類器;
所述特征提取層根據(jù)提取圖像中檢測區(qū)域的像素值,對所述檢測區(qū)域的像素值進行預(yù)處理,并對所述預(yù)處理后的圖像進行特征提取,得到所述檢測區(qū)域的特征圖;
所述部位檢測層通過M個過濾器分別檢測所述檢測區(qū)域的特征圖,輸出所述檢測區(qū)域的M個部位對應(yīng)的響應(yīng)圖,每個過濾器用于檢測一個部位,每個部位對應(yīng)一個響應(yīng)圖;
所述形變處理層根據(jù)所述M個部位對應(yīng)的響應(yīng)圖分別確定所述M個部位的形變,并根據(jù)所述N個部位的形變確定所述M個部位的得分圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310633797.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法及檢測裝置





