[發(fā)明專利]一種手勢識別方法在審
| 申請?zhí)枺?/td> | 202011485807.0 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112507918A | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計)人: | 鐘浩;伍廣彬;言宏亮;曹晟;于波;張華;楊波;梁興偉;楊衛(wèi)國 | 申請(專利權(quán))人: | 康佳集團(tuán)股份有限公司;深圳市格靈人工智能與機器人研究院有限公司;哈爾濱工業(yè)大學(xué)(深圳);深圳哈工大科技創(chuàng)新產(chǎn)業(yè)發(fā)展有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/08 |
| 代理公司: | 深圳市君勝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268 | 代理人: | 陳專 |
| 地址: | 518057 廣東省深圳市南山區(qū)粵海街*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 手勢 識別 方法 | ||
本發(fā)明公開了一種手勢識別方法,方法包括:獲取視頻文件中的第t幀圖像;將第t幀圖像輸入已訓(xùn)練的手勢識別模型,并控制手勢識別模型對第t幀圖像進(jìn)行手勢識別,得到第t幀圖像對應(yīng)的圖像手勢;當(dāng)圖像手勢為靜態(tài)手勢類型時,將圖像手勢作為目標(biāo)手勢;當(dāng)圖像手勢為動態(tài)手勢類型時,迭代獲取視頻文件中的幀圖像,并根據(jù)幀圖像對應(yīng)的圖像手勢,確定視頻文件對應(yīng)的目標(biāo)手勢;根據(jù)目標(biāo)手勢,確定視頻文件對應(yīng)的手勢指令。本發(fā)明通過對手勢模型的優(yōu)化以及動態(tài)手勢類型和靜態(tài)手勢類型識別的結(jié)合,提高在對手勢識別精確度。
技術(shù)領(lǐng)域
本發(fā)明涉及生物識別技術(shù)領(lǐng)域,尤其涉及一種手勢識別方法。
背景技術(shù)
隨著計算機視覺技術(shù)的快速發(fā)展,人機交互在各個領(lǐng)域應(yīng)用也越來越廣泛。手勢是一種直觀、自然且快速地與計算機進(jìn)行通信的交互技術(shù)。因此,手勢識別技術(shù)也是目前人機交互技術(shù)中研究的重點方向之一。目前,手勢識別技術(shù)已普遍應(yīng)用于各種智能終端中,通過手勢控制終端完成相應(yīng)的功能操作,可實現(xiàn)對智能終端自然靈活的操作,增強操作的簡便性及用戶的體驗度。然而,手勢識別技術(shù)也依然存在一定的瓶頸,如何在基于大分辨圖像下并且處于復(fù)雜的環(huán)境背景中快速準(zhǔn)確的識別手勢,以讓智能終端實時響應(yīng)完成相應(yīng)的功能,這也是目前手勢識別技術(shù)研究的一個熱點問題和難點問題。
目前應(yīng)用于手勢識別的方式主要有三種,第一種是采用機器學(xué)習(xí)方法,利用傳統(tǒng)圖像處理方法對攝取圖像進(jìn)行預(yù)處理,然后對手勢進(jìn)行分割以及定位,最后設(shè)計分類器對手勢進(jìn)行分類,分類出相應(yīng)的手勢;第二種是采用深度學(xué)習(xí)方法,先通過CNN(Convolutional Neural Networks,簡稱CNN)網(wǎng)絡(luò)回歸定位出人,然后在檢測到人的基礎(chǔ)上再設(shè)計一個CNN網(wǎng)絡(luò)對手勢進(jìn)行定位與分類,從而確定手勢類型;第三種同樣也是利用深度學(xué)習(xí)思想設(shè)計CNN網(wǎng)絡(luò)直接檢測出手部骨骼的關(guān)鍵點,然后利用關(guān)鍵點位置關(guān)系,進(jìn)而可以判別每個手勢的類別。
對于方法一,在復(fù)雜場景或者大分辨圖像背景下,雖然這種方法速度快,但是魯棒性差,準(zhǔn)確率低,難以滿足實際應(yīng)用;對于方法二,通過設(shè)計CNN網(wǎng)絡(luò)先定位人,在對手勢進(jìn)行定位與分類識別,此種方法對于大分辨圖像以及復(fù)雜場景下,能保證較高的識別精度,穩(wěn)定性高,但是這種方法往往在嵌入式設(shè)備上速度往往較慢,硬件內(nèi)存消耗大,不利于量產(chǎn)使用。而對于方法三,在大分辨率圖像下,由于手部占整個圖像的比例比較小,往往會導(dǎo)致漏檢,從而導(dǎo)致整個識別的精度不高,另外,在復(fù)雜場景下,這種方法也會把一些背景納入手勢識別的范圍,從而導(dǎo)致手勢誤檢。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種手勢識別方法、智能終端及計算機可讀存儲介質(zhì),旨在解決現(xiàn)有技術(shù)中手勢識別準(zhǔn)確率低的問題。
為實現(xiàn)上述目的,本發(fā)明提供一種手勢識別方法,所述手勢識別方法包括如下步驟:
獲取視頻文件中的第t幀圖像,其中,t為正整數(shù);
將所述第t幀圖像輸入已訓(xùn)練的手勢識別模型,并控制所述手勢識別模型對所述第t幀圖像進(jìn)行手勢識別,得到所述第t幀圖像對應(yīng)的圖像手勢;
當(dāng)所述圖像手勢為靜態(tài)手勢類型時,將所述圖像手勢作為目標(biāo)手勢;
當(dāng)所述圖像手勢為動態(tài)手勢類型時,迭代獲取所述視頻文件中的幀圖像,并根據(jù)所述幀圖像對應(yīng)的圖像手勢,確定所述視頻文件對應(yīng)的目標(biāo)手勢;
根據(jù)所述目標(biāo)手勢,確定所述視頻文件對應(yīng)的手勢指令。
可選地,所述的手勢識別方法,其中,所述手勢識別模型包括基于預(yù)設(shè)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型,所述神經(jīng)網(wǎng)絡(luò)的主干網(wǎng)絡(luò)為輕量級神經(jīng)網(wǎng)絡(luò);所述輕量級神經(jīng)網(wǎng)絡(luò)包括網(wǎng)絡(luò)擴(kuò)張系數(shù)為小于六倍的MobileNet2網(wǎng)絡(luò)。
可選地,所述的手勢識別方法,其中,所述手勢識別模型的訓(xùn)練過程包括:
獲取訓(xùn)練樣本集,并對所述訓(xùn)練樣本集進(jìn)行標(biāo)注,得到所述訓(xùn)練樣本集中各個訓(xùn)練圖像對應(yīng)的標(biāo)注信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于康佳集團(tuán)股份有限公司;深圳市格靈人工智能與機器人研究院有限公司;哈爾濱工業(yè)大學(xué)(深圳);深圳哈工大科技創(chuàng)新產(chǎn)業(yè)發(fā)展有限公司,未經(jīng)康佳集團(tuán)股份有限公司;深圳市格靈人工智能與機器人研究院有限公司;哈爾濱工業(yè)大學(xué)(深圳);深圳哈工大科技創(chuàng)新產(chǎn)業(yè)發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011485807.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





