[發(fā)明專利]一種基于Head輕量化Mask Scoring R-CNN的手勢識別方法有效
| 申請?zhí)枺?/td> | 202010218568.6 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111401293B | 公開(公告)日: | 2022-06-24 |
| 發(fā)明(設(shè)計(jì))人: | 徐好好;單志勇;徐超 | 申請(專利權(quán))人: | 東華大學(xué) |
| 主分類號: | G06V40/10 | 分類號: | G06V40/10;G06V10/26;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 head 量化 mask scoring cnn 手勢 識別 方法 | ||
本發(fā)明涉及一種基于Head輕量化Mask Scoring R?CNN的手勢識別方法,在原始Mask Scoring R?CNN主干網(wǎng)絡(luò)的輸出特征圖之后引入一個(gè)輕量化的位置敏感得分圖和位置敏感RoIAlign,使得Head結(jié)構(gòu)的輸入RoI通道數(shù)變得很小,并且將Head結(jié)構(gòu)中連續(xù)的兩個(gè)全連接層改為單個(gè)全連接層來減少計(jì)算量。本發(fā)明以DetNet59結(jié)合FPN作為主干網(wǎng)絡(luò),使得提取的多尺度特征圖能夠同時(shí)包含豐富的語義信息和位置信息并且能夠適應(yīng)各種尺寸的物體進(jìn)行檢測。經(jīng)本發(fā)明改進(jìn)后的實(shí)例分割模型在平均精準(zhǔn)度上得到明顯提升,模型參數(shù)數(shù)量得到有效降低,模型的訓(xùn)練和檢測速度得到了有效提高。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于Head輕量化Mask Scoring R-CNN的手勢識別方法,屬于計(jì)算機(jī)視覺和深度學(xué)習(xí)領(lǐng)域。
背景技術(shù)
手勢識別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,其核心是使用‘機(jī)器眼’來代替人眼識別圖像或視頻采集裝置中的手部姿勢,將采集到的圖像或視頻輸入到視覺算法中進(jìn)行計(jì)算,最終得到手部信息。這里提到的視覺算法有很多種,例如,傳統(tǒng)的圖像處理方法以及近些年的深度學(xué)習(xí)方法等。在深度學(xué)習(xí)出現(xiàn)以前,傳統(tǒng)的圖像處理和機(jī)器學(xué)習(xí)方法并不能很好地完成一個(gè)簡單的圖像分類任務(wù),而深度學(xué)習(xí)的出現(xiàn)使得計(jì)算機(jī)有了達(dá)到人類水平的可能。事實(shí)上,AlphaGo的出現(xiàn)已經(jīng)證明了在一些領(lǐng)域,計(jì)算機(jī)有了超越人類的能力。
計(jì)算機(jī)視覺包含幾類基礎(chǔ)任務(wù):圖像分類,目標(biāo)檢測,語義分割,實(shí)例分割,目標(biāo)跟蹤等。基于深度學(xué)習(xí)的計(jì)算機(jī)視覺模型往往可以取得更高精度的預(yù)測結(jié)果,其主要包括以SSD,YOLO為代表的一階段檢測模型,和以R-CNN系列為代表的二階段檢測模型。一階段的檢測模型是直接對錨框進(jìn)行預(yù)測的,而二階段的檢測模型首先通過RPN生成候選區(qū)域,然后對候選區(qū)域進(jìn)行預(yù)測。
Girshick R,Donahue J等人提出的R-CNN模型首先通過選擇性搜索生成2000個(gè)RoI,然后將全部的RoI通過主干網(wǎng)絡(luò)提取特征,最后通過SVM分類器和回歸模型進(jìn)行分類和邊界框預(yù)測,但是R-CNN的速度很慢,訓(xùn)練和預(yù)測過程都需要將上千個(gè)RoI全部通過主干網(wǎng)絡(luò)獲取特征,這個(gè)步驟將花費(fèi)大量的時(shí)間,在實(shí)際應(yīng)用中無法做到實(shí)時(shí)性檢測,并且主干網(wǎng)絡(luò),分類器和回歸模型均單獨(dú)訓(xùn)練,主干網(wǎng)絡(luò)的參數(shù)不會因訓(xùn)練SVM和回歸模型而更新,這導(dǎo)致模型檢測精度不夠高。Girshick R提出的Fast R-CNN將RoI共享主干網(wǎng)絡(luò)卷積計(jì)算,只需要將原圖進(jìn)行一次前向傳播獲取特征圖,RoI在特征圖對應(yīng)位置上提取特征即可,引入RoI Pooling將RoI統(tǒng)一到相同尺寸使得分類和回歸部分可以同主干網(wǎng)絡(luò)一起訓(xùn)練,但是前期的選擇性搜索仍然占用了大部分計(jì)算時(shí)間。何凱明等人提出的Faster R-CNN引入了RPN網(wǎng)絡(luò),將提取提議區(qū)域的過程設(shè)計(jì)為一個(gè)小型的全卷積網(wǎng)絡(luò)放入整個(gè)模型與其他部分一起訓(xùn)練,真正做到了端到端的目標(biāo)檢測框架。何凱明等人基于Faster R-CNN提出了實(shí)例分割框架Mask R-CNN,在Head部分加入了Mask Head,用一個(gè)簡易的FCN結(jié)構(gòu)做到了掩碼預(yù)測,同時(shí)用RoIAlign代替了RoI Pooling解決了RoI Pooling因兩次量化導(dǎo)致的RoI提取不準(zhǔn)確問題。Zhaojin Huang等人認(rèn)為Mask R-CNN中衡量掩碼質(zhì)量的標(biāo)準(zhǔn)不應(yīng)該是分類置信度,應(yīng)該是預(yù)測掩碼與真實(shí)掩碼的像素級交并比,即MaskIoU,于是提出了Mask Scoring R-CNN,基于MaskHead添加了一個(gè)MaskIoU Head用于預(yù)測MaskIoU,最后通過分類置信度與MaskIoU的乘積作為Mask的得分值。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:一階段的手勢檢測器精度不夠高,無法對手勢掩碼進(jìn)行細(xì)致的預(yù)測;二階段的手勢檢測器速度過慢。
為了解決上述技術(shù)問題,本發(fā)明的技術(shù)方案是提供了一種基于Head輕量化MaskScoring R-CNN的手勢識別方法,其特征在于,包括以下步驟:
步驟1、建立改進(jìn)的Mask Scoring R-CNN實(shí)例分割模型,該改進(jìn)的MaskScoring R-CNN實(shí)例分割模型包括主干網(wǎng)絡(luò)、RPN網(wǎng)絡(luò)、PSRoI Align及Head結(jié)構(gòu),其中:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東華大學(xué),未經(jīng)東華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010218568.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





