[發(fā)明專利]一種圖像中多模態(tài)信息融合的行人檢測(cè)方法、系統(tǒng)及終端有效
| 申請(qǐng)?zhí)枺?/td> | 202010143425.3 | 申請(qǐng)日: | 2020-03-04 |
| 公開(kāi)(公告)號(hào): | CN111476089B | 公開(kāi)(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 張重陽(yáng);羅艷 | 申請(qǐng)(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號(hào): | G06V40/20 | 分類號(hào): | G06V40/20;G06V40/10;G06T7/50 |
| 代理公司: | 上海恒慧知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31317 | 代理人: | 徐紅銀 |
| 地址: | 200240 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 圖像 中多模態(tài) 信息 融合 行人 檢測(cè) 方法 系統(tǒng) 終端 | ||
本發(fā)明公開(kāi)了一種圖像中多模態(tài)信息融合的行人檢測(cè)方法、系統(tǒng)及終端,根據(jù)原始的平視圖得到對(duì)應(yīng)的俯視圖;對(duì)俯視圖上的每個(gè)點(diǎn)預(yù)測(cè)行人目標(biāo)概率以及行人目標(biāo)框?qū)挾龋煌ㄟ^(guò)平視圖得到對(duì)應(yīng)的深度圖,基于深度估計(jì)行人目標(biāo)框高度;將行人目標(biāo)框?qū)挾群托腥四繕?biāo)框高度整合為目標(biāo)候選框,并通過(guò)編碼器統(tǒng)一編碼到語(yǔ)義空間,得到平視圖下的行人目標(biāo)概率;對(duì)平視圖以及俯視圖的行人目標(biāo)概率加權(quán)平均,得到最終的行人目標(biāo)預(yù)測(cè)結(jié)果。本發(fā)明有效避免了平視圖視角下的行人遮擋問(wèn)題,有效去除復(fù)雜的背景干擾,適用于現(xiàn)實(shí)應(yīng)用環(huán)境中多變的情況,增強(qiáng)檢測(cè)魯棒性,降低誤檢和漏檢概率,有效提高視頻圖像中行人目標(biāo)的檢測(cè)能力。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像中目標(biāo)檢測(cè)領(lǐng)域,具體地說(shuō),涉及的是一種圖像中多模態(tài)信息融合的行人檢測(cè)方法、系統(tǒng)及終端。
背景技術(shù)
大數(shù)據(jù)時(shí)代的到來(lái),推動(dòng)著計(jì)算機(jī)技術(shù)的不斷更新和發(fā)展,行人檢測(cè)技術(shù)作為計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)在智能視頻監(jiān)控、智能交通等領(lǐng)域表現(xiàn)出了重要的應(yīng)用價(jià)值。現(xiàn)有的行人檢測(cè)方法,因?yàn)樯写嫒缦吕щy和挑戰(zhàn),檢測(cè)結(jié)果還有待提升:由于拍攝距離原因,圖片較大但目標(biāo)行人尺寸較小,通過(guò)深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)降縮之后目標(biāo)區(qū)域的特征很少,難以進(jìn)行有效的檢測(cè)識(shí)別;由于拍攝角度的固定性,行人的身體會(huì)出現(xiàn)部分遮擋問(wèn)題,在檢測(cè)過(guò)程中有用的信息相對(duì)減少,從而導(dǎo)致漏檢的發(fā)生。
目前,較為成熟的行人檢測(cè)方法基本可以分為兩類:(1)基于背景建模。該方法主要用于視頻中檢測(cè)運(yùn)動(dòng)目標(biāo):即將輸入的靜態(tài)圖像進(jìn)行場(chǎng)景分割,利用混合高斯模型(GMM)或運(yùn)動(dòng)檢測(cè)等方法,分割出其前景與背景,再在前景中提取特定運(yùn)動(dòng)目標(biāo)。這類方法需要連續(xù)的圖像序列來(lái)實(shí)現(xiàn)建模,不適合于單幅圖像中的目標(biāo)檢測(cè)。(2)基于統(tǒng)計(jì)學(xué)習(xí)。即將所有已知屬于行人目標(biāo)的圖像收集起來(lái)形成訓(xùn)練集,基于一個(gè)人工設(shè)計(jì)的方法(如HOG、Harr等)對(duì)訓(xùn)練集圖像提取特征。提取的特征一般為目標(biāo)的灰度、紋理、梯度直方圖、邊緣等信息。繼而根據(jù)大量的訓(xùn)練樣本的特征庫(kù)來(lái)構(gòu)建行人檢測(cè)分類器。分類器一般可用SVM,Adaboost及神經(jīng)網(wǎng)絡(luò)等模型。
綜合而言近年來(lái)基于統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)檢測(cè)方法表現(xiàn)較優(yōu),基于統(tǒng)計(jì)學(xué)習(xí)的目標(biāo)檢測(cè)方法可以分為傳統(tǒng)人工特征目標(biāo)檢測(cè)方法以及深度特征機(jī)器學(xué)習(xí)目標(biāo)檢測(cè)方法。傳統(tǒng)人工特征目標(biāo)檢測(cè)方法主要是指其利用人工設(shè)計(jì)的特征,來(lái)進(jìn)行目標(biāo)檢測(cè)的建模。近年來(lái)表現(xiàn)優(yōu)秀的人工設(shè)計(jì)的特征方法主要包括:2010年P(guān)edro?F.Felzenszwalb等提出的DPM(Deformable?Part?Model)方法(Object?detection?with?discriminatively?trainedpart-based?models)。Piotr?Dollár等2009年提出的ICF(Integral?Channel?Features)、2014年提出的ACF方法(Fast?Feature?Pyramids?for?Object?Detection)。2014年Shanshan?Zhang等提出的Informed?Harr方法(Informed?Haar-like?Features?ImprovePedestrian?Detection),致力于提取更加具有表征信息的Harr特征來(lái)進(jìn)行訓(xùn)練。這些人工設(shè)計(jì)的特征雖然取得了一定的效果,但因?yàn)槿斯ぬ卣鞅碚髂芰Σ蛔悖源嬖跈z測(cè)精度不高問(wèn)題。由于深度卷積神經(jīng)網(wǎng)絡(luò)模型所具有的更強(qiáng)大的特征學(xué)習(xí)與表達(dá)能力,在行人檢測(cè)方面得到越來(lái)越廣泛和成功的應(yīng)用。基礎(chǔ)的行人檢測(cè)算子是R-CNN(Region-ConvolutionalNeural?Network)模型。2014年,Girshick等人提出RCNN用于通用目標(biāo)的檢測(cè),之后又是提出了Fast?RCNN和Faster?RCNN,提高了基于深度學(xué)習(xí)目標(biāo)檢測(cè)方法的精度和速度.2016年提出的Yolo和SSD等方法,則通過(guò)Anchor等思想實(shí)現(xiàn)單一階段的快速目標(biāo)檢測(cè)。這些基于深度學(xué)習(xí)技術(shù)的目標(biāo)檢測(cè),大都是使用從整個(gè)候選框提取的特征進(jìn)行分類回歸,仍然存在深度特征提取不充分的問(wèn)題,尤其是針對(duì)行人中的遮擋目標(biāo)以及小尺寸目標(biāo),一方面由于遮擋目標(biāo)身體部分部位的不可見(jiàn)性,視覺(jué)特征有限;另一方面是因?yàn)樯疃染矸e神經(jīng)網(wǎng)絡(luò)層層的尺寸降縮,特征尺寸更小;這兩方面的因素導(dǎo)致行人目標(biāo)的檢測(cè)精度不高、漏檢率需要進(jìn)一步降低。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010143425.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 基于判別式多模態(tài)深度置信網(wǎng)多模態(tài)數(shù)據(jù)融合方法和系統(tǒng)
- 多模態(tài)次同步振蕩的自適應(yīng)阻尼控制方法及裝置
- 一種基于多模態(tài)生成式對(duì)抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于異構(gòu)深度特征的多模態(tài)地基云識(shí)別方法
- 目標(biāo)分類識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識(shí)別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種身份識(shí)別方法及裝置
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





