[發(fā)明專利]一種基于多區(qū)域雙流卷積神經(jīng)網(wǎng)絡(luò)模型的動(dòng)作檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201710053337.2 | 申請(qǐng)日: | 2017-01-22 |
| 公開(公告)號(hào): | CN106815579A | 公開(公告)日: | 2017-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 夏春秋 | 申請(qǐng)(專利權(quán))人: | 深圳市唯特視科技有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術(shù)產(chǎn)業(yè)園*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 區(qū)域 雙流 卷積 神經(jīng)網(wǎng)絡(luò) 模型 動(dòng)作 檢測(cè) 方法 | ||
1.一種基于多區(qū)域雙流卷積神經(jīng)網(wǎng)絡(luò)模型的動(dòng)作檢測(cè)方法,其特征在于,主要包括端到端雙流更快基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)(一);多區(qū)域雙流更快基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)(二);連接和時(shí)間定位(三)。
2.基于權(quán)利要求書1所述的多區(qū)域雙流R-CNN模型的動(dòng)作檢測(cè),其特征在于,充分利用了三種最新方法,即更快R-CNN,具有光流疊加的雙流CNN和多區(qū)域CNN。
3.基于權(quán)利要求書1所述的動(dòng)作檢測(cè)方法,其特征在于,動(dòng)作檢測(cè)是基于幀級(jí)的,包括幀級(jí)動(dòng)作建議和動(dòng)作表示;提出雙流CNN的動(dòng)作分類和多區(qū)域CNNs的動(dòng)作表示,堆疊多幀光流用于更快的R-CNN模型,顯著地改善了運(yùn)動(dòng)R-CNN;為外觀和運(yùn)動(dòng)R-CNN選擇多個(gè)身體區(qū)域(即上身,下身和邊界區(qū)域),提高了基于幀的動(dòng)作檢測(cè)性能。
4.基于權(quán)利要求書1所述的端到端雙流更快基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)(一),其特征在于,包括訓(xùn)練和測(cè)試、評(píng)估動(dòng)作建議;雙流更快R-CNN(TS R-CNN)采用RGB幀ft和為幀ft及其相鄰幀提取的若干光流圖(在時(shí)間t之前取得一半幀,之后取其一半),網(wǎng)絡(luò)使用幾個(gè)卷積和最大池層來處理,獨(dú)立于外觀和運(yùn)動(dòng)流;對(duì)于每個(gè)流,最后的卷積層被饋送到外觀或運(yùn)動(dòng)區(qū)域建議網(wǎng)絡(luò)和興趣區(qū)域(RoI)池層。
5.基于權(quán)利要求書4所述的ROI融合層,其特征在于,ROI融合層合并了外觀和運(yùn)動(dòng)區(qū)域建議網(wǎng)絡(luò)(RPN)建議;外觀和運(yùn)動(dòng)感興趣區(qū)域匯聚層分別采用H×W網(wǎng)格,把所有的RoI進(jìn)行最大化池;每個(gè)流的定長,這些特征向量送入序列的全連接層,最后分為Softmax層和包圍盒的回歸;兩個(gè)流的最終檢測(cè)結(jié)果通過結(jié)合Softmax分?jǐn)?shù)獲得最佳性能。
6.基于權(quán)利要求書4所述的訓(xùn)練和測(cè)試,其特征在于,分別訓(xùn)練每個(gè)雙流更快R-CNN;對(duì)于兩個(gè)流,重新調(diào)整在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-16模型;通過堆疊x分量,y分量和流的幅度,將一幀光流數(shù)據(jù)變換成三通道圖像;在多個(gè)光流圖的情況下,其中輸入通道號(hào)與VGG-16網(wǎng)的不同,多次復(fù)制第一層的VGG-16濾波器;使用中間框架的地面實(shí)況邊界框進(jìn)行訓(xùn)練;
為了測(cè)試,通過添加RoI融合層,將學(xué)習(xí)的外觀和運(yùn)動(dòng)R-CNN模型結(jié)合到一個(gè)模型中,然后將幀流對(duì)放到端對(duì)端模型中,并將來自兩個(gè)流的Softmax分?jǐn)?shù)平均為最終動(dòng)作區(qū)域檢測(cè)分?jǐn)?shù);邊界框回歸被應(yīng)用于每個(gè)流相應(yīng)的RoI,這些框連接最后檢測(cè)結(jié)果。
7.基于權(quán)利要求書4所述的評(píng)估動(dòng)作建議,其特征在于,選擇性搜索(SS)通過使用具有來自顏色、紋理和框大小的特征自下而上分組方案來生成區(qū)域;保持默認(rèn)設(shè)置并獲得2000個(gè)建議;基于完全包含在邊界框中的輪廓的數(shù)量指示對(duì)象的觀察來獲得邊框(EB);
RPN方法首先為每個(gè)具有多個(gè)比例和比例的像素生成幾個(gè)錨定框,然后使用學(xué)習(xí)的特征對(duì)其進(jìn)行評(píng)分和回歸;對(duì)于訓(xùn)練RPN,對(duì)于與地面實(shí)況框具有高IoU重疊的錨獲得正的物體標(biāo)簽;保留RPN的300個(gè)建議,并使用具有600像素的固定最小邊的一個(gè)尺度。
8.基于權(quán)利要求書1所述的多區(qū)域雙流更快基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)(二),其特征在于,多區(qū)域雙流更快基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(MR-TS R-CNN)架構(gòu),通過在RPN和RoI池層之間嵌入多區(qū)域生成層而建立在雙流更快R-CNN上;給定來自外觀RPN和運(yùn)動(dòng)RPN的建議,多區(qū)域?qū)訛槊總€(gè)RPN建議生成4個(gè)RoI;
原始區(qū)域是原始RPN建議;沿著該通道的網(wǎng)絡(luò)被引導(dǎo)以捕獲整個(gè)動(dòng)作區(qū)域;網(wǎng)絡(luò)與TS R-CNN完全相同;邊界框回歸僅適用于此通道;“上半部”和“下半部”區(qū)域是RPN建議的上半部和下半部;由于在動(dòng)作視頻中大多是對(duì)稱的垂直結(jié)構(gòu)的身體部位,只使用上/下半部分區(qū);基于這些部分的網(wǎng)絡(luò)不僅是魯棒性,而且對(duì)于身體部位特征占優(yōu)勢(shì)的動(dòng)作類別也更具辨別性;
“邊界”區(qū)域是原始建議周圍的矩形環(huán),給定一個(gè)RPN建議,通過將建議縮放0.8倍,外框按1.5倍生成邊框區(qū)域的內(nèi)框,對(duì)于外觀流,沿著該通道的網(wǎng)絡(luò)預(yù)期共同捕獲人類和附近物體的外觀邊界,這可能有助于動(dòng)作識(shí)別;對(duì)于運(yùn)動(dòng)流,該通道具有高概率聚焦。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市唯特視科技有限公司,未經(jīng)深圳市唯特視科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710053337.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 卷積運(yùn)算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算方法及系統(tǒng)
- 卷積運(yùn)算方法及系統(tǒng)
- 卷積運(yùn)算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運(yùn)算裝置
- 基于FPGA實(shí)現(xiàn)圖像識(shí)別的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





