[發(fā)明專利]一種基于深度學(xué)習(xí)多層刺激的行人檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710385952.3 | 申請(qǐng)日: | 2017-05-26 |
| 公開(公告)號(hào): | CN107301376B | 公開(公告)日: | 2021-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 李璽;李健 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/32;G06K9/62 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 張法高;傅朝棟 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 多層 刺激 行人 檢測(cè) 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)多層刺激的行人檢測(cè)方法,用于在給定視頻監(jiān)控和需檢測(cè)的目標(biāo)后,標(biāo)出目標(biāo)在視頻里出現(xiàn)的位置。具體包括如下步驟:獲取用于訓(xùn)練目標(biāo)檢測(cè)模型的行人數(shù)據(jù)集,并定義算法目標(biāo);對(duì)行人目標(biāo)的位置偏差和表觀語(yǔ)義進(jìn)行建模;根據(jù)步驟S2中的建模結(jié)果建立行人多層刺激網(wǎng)絡(luò)模型;使用所述檢測(cè)模型檢測(cè)監(jiān)控圖像中的行人位置。本發(fā)明適用于真實(shí)視頻監(jiān)控圖像中的行人檢測(cè),面對(duì)各類復(fù)雜情況具有較佳的效果和魯棒性。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺(jué)領(lǐng)域,特別地涉及一種基于深度學(xué)習(xí)多層刺激的行人檢測(cè)方法。
背景技術(shù)
20世紀(jì)末以來(lái),隨著計(jì)算機(jī)視覺(jué)的發(fā)展,智能視頻處理技術(shù)得到廣泛的關(guān)注和研究。行人檢測(cè)是其中一項(xiàng)重要和具有挑戰(zhàn)性的任務(wù),其目標(biāo)是準(zhǔn)確檢測(cè)出視頻監(jiān)控圖像里行人的位置。該問(wèn)題在視頻監(jiān)控和智能機(jī)器人等領(lǐng)域具有很高的應(yīng)用價(jià)值,是大量高級(jí)視覺(jué)任務(wù)的基礎(chǔ)。但同樣,該問(wèn)題具有較大的挑戰(zhàn)性,一是如何表達(dá)目標(biāo)區(qū)域信息;二是如何將候選區(qū)域的提取與目標(biāo)分類統(tǒng)一建模優(yōu)化,這些挑戰(zhàn)對(duì)相應(yīng)算法的性能和魯棒性提出了較高的要求。
一般行人檢測(cè)算法分為三個(gè)部分:1、找出輸入圖像中包含目標(biāo)的候選區(qū)域。2、基于候選區(qū)域手工提取目標(biāo)特征。3、對(duì)特征使用分類算法實(shí)現(xiàn)檢測(cè)任務(wù)。該種方法主要存在以下幾個(gè)問(wèn)題:1)它基于傳統(tǒng)的視覺(jué)特征,這些視覺(jué)特征只能表達(dá)較低層的視覺(jué)信息,但行人檢測(cè)任務(wù)需要模型具備高層抽象的語(yǔ)義理解能力;2)候選區(qū)域的提取和特征的分類沒(méi)有端到端學(xué)習(xí)優(yōu)化;3)基于深度學(xué)習(xí)提取的特征沒(méi)有經(jīng)過(guò)多層刺激組合,目標(biāo)特征不夠抽象豐富。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)多層刺激的行人檢測(cè)方法,用于檢測(cè)給定監(jiān)控圖像里的行人位置。該方法基于深度神經(jīng)網(wǎng)絡(luò),利用多層刺激的深度視覺(jué)特征表征目標(biāo)區(qū)域信息,采用Faster R-CNN框架建模行人檢測(cè),能夠更好地適應(yīng)真實(shí)視頻監(jiān)控場(chǎng)景中的復(fù)雜情況。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
一種基于深度學(xué)習(xí)多層刺激的行人檢測(cè)方法,包括以下步驟:
S1、獲取用于訓(xùn)練目標(biāo)檢測(cè)模型的行人數(shù)據(jù)集,并定義算法目標(biāo);
S2、對(duì)行人目標(biāo)的位置偏差和表觀語(yǔ)義進(jìn)行建模;
S3、根據(jù)步驟S2中的建模結(jié)果建立行人多層刺激網(wǎng)絡(luò)模型;
S4、使用所述檢測(cè)模型檢測(cè)監(jiān)控圖像中的行人位置。
進(jìn)一步的,步驟S1中,所述的用于訓(xùn)練目標(biāo)檢測(cè)模型的行人數(shù)據(jù)集,包括行人圖像Xtrain,人工標(biāo)注的行人位置B;
定義算法目標(biāo)為:檢測(cè)一幅監(jiān)控圖像X中的行人位置P。
進(jìn)一步的,步驟S2中,對(duì)行人目標(biāo)的位置偏差和表觀語(yǔ)義進(jìn)行建模具體包括:
S21、根據(jù)行人數(shù)據(jù)集Xtrain和行人位置P建模位置偏差:
其中,x,y是行人框標(biāo)簽的中點(diǎn)坐標(biāo),w,h是行人框標(biāo)簽的寬度與長(zhǎng)度,xa,ya是行人候選框的坐標(biāo),wa,ha是行人候選框的寬度與長(zhǎng)度;tx為行人框的x坐標(biāo)相對(duì)于標(biāo)注框x坐標(biāo)的偏差對(duì)應(yīng)標(biāo)注框?qū)挾鹊谋壤瑃y為行人框的y坐標(biāo)相對(duì)于標(biāo)注框y坐標(biāo)的偏差對(duì)應(yīng)標(biāo)注框長(zhǎng)度的比例,tw為行人框的寬度相對(duì)于標(biāo)注框?qū)挾鹊谋壤瑃h為行人框的長(zhǎng)度相對(duì)于標(biāo)注框長(zhǎng)度的比例;
S22、根據(jù)行人數(shù)據(jù)集Xtrain和行人位置P建模表觀語(yǔ)義:
s=w,d
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710385952.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





