[發(fā)明專利]一種基于深度學(xué)習(xí)的實時手語手勢識別系統(tǒng)在審
| 申請?zhí)枺?/td> | 202210448144.8 | 申請日: | 2022-04-27 |
| 公開(公告)號: | CN114821783A | 公開(公告)日: | 2022-07-29 |
| 發(fā)明(設(shè)計)人: | 徐軍;高輝 | 申請(專利權(quán))人: | 哈爾濱理工大學(xué) |
| 主分類號: | G06V40/20 | 分類號: | G06V40/20;G06V10/44;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150080 黑龍江省哈爾*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 實時 手語 手勢 識別 系統(tǒng) | ||
本發(fā)明公開一種基于深度學(xué)習(xí)的實時手語手勢識別系統(tǒng),目的是解決現(xiàn)有利用手部骨骼關(guān)節(jié)點識別手語手勢成本昂貴的問題;目前想獲取手部骨骼關(guān)節(jié)點的三維坐標(biāo),需要使用可穿戴式的設(shè)備或者使用深度攝像頭,使得實驗成本大大增加,所以本發(fā)明利用谷歌MediaPipe框架,只需要使用一個普通攝像頭來獲得手部的三維坐標(biāo)點;再通過訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)GoogLeNet模型,實現(xiàn)實時手語手勢識別;同時,本發(fā)明相較于傳統(tǒng)的圖像處理方式,速度更快,準(zhǔn)確率更高,大大提高工作效率。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的實時手語手勢識別系統(tǒng)。
背景技術(shù)
據(jù)世界衛(wèi)生組織的數(shù)據(jù)統(tǒng)計,全球患有聽力障礙的疾病的人數(shù)超過2.5億。對于普通人來說一般采用口語結(jié)合書面語的方式,適當(dāng)配合身體姿勢和人的表情來進行交際,而聾啞人交流主要是使用手語語言。
手語是一種借助手勢來表達使用者意圖的肢體語言,其經(jīng)過手部的形狀、位置、運動軌跡和方向來組合成為一個手語詞。雖然在日常生活中聾啞人可以使用手語來表達自己的看法,但其中也有諸多不便。比如,大多數(shù)普通人并不了解手語,無法與聾啞人進行溝通。因此,手語識別技術(shù)便成了聾啞人與世界溝通的一種方法。所謂的手語識別是通過計算機技術(shù)對聾啞人使用的手語進行語義分析,進而轉(zhuǎn)化為普通人能看懂或聽懂的文字或聲音的一種計算機技術(shù)。手語識別技術(shù)的研究不僅能夠?qū)γ@啞人的生活學(xué)習(xí)以及工作條件進行改善和提高,為他們提供更優(yōu)質(zhì)的服務(wù)。特別是在例如醫(yī)院,車站等一些公共場所,手語識別技術(shù)更加有著廣泛的應(yīng)用,能夠幫助聾啞人更好的融入社會,享受生活。同時,手語識別技術(shù)也可以應(yīng)用于雙語電視節(jié)目的播放、計算機輔助啞語教學(xué)、電影特效、虛擬人的研究、醫(yī)療研究、游戲娛樂、動畫的制作等諸多方面。
目前,本次是主要基于英語手語字母進行手語識別的研究,手語如用口語,有其獨立的語系。甚至在每個國家內(nèi)部都有不同的手語用法,而且各國的風(fēng)俗習(xí)慣大不相同,有時貿(mào)然使用手語,還會造成不必要的麻煩或危險。因此英語作為世界上使用最廣泛的語言,研究英語字母手語是有很大意義的。
發(fā)明內(nèi)容
本發(fā)明的目的在于有效的利用MediaPipe框架的優(yōu)勢,提供一種不借助其他任何復(fù)雜傳感器的設(shè)備,僅憑普通攝像頭對英文手語字母的26種手語手勢和3種功能手勢進行實時識別。該系統(tǒng)通過手部上各特征點到手腕點的空間距離組成一個多維數(shù)組,通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)以及幀流結(jié)果穩(wěn)定原則識別出手語手勢。
本發(fā)明的目的是這樣實現(xiàn)的:對每一種類手語手勢進行多角度拍照,將收集的圖像組成數(shù)據(jù)集,利用MediaPipe框架識別手部位置并提取圖像中的特征點,通過神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實現(xiàn)對29種手語手勢進行識別,所述方法包括:
步驟一、利用MediaPipe框架獲取手語手勢各個特征點的三維坐標(biāo)信息。
步驟二、根據(jù)手部的特征點的三維坐標(biāo)信息計算各個關(guān)節(jié)點到手腕特征點的歐式距離。
步驟三、根據(jù)上述特征信息計算的歐氏距離組成的數(shù)列,代入卷積神經(jīng)網(wǎng)絡(luò)模型GoogLeNet,使用三元組損失函數(shù)最終識別出待識別的手語手勢。
步驟四、取連續(xù)m幀識別的手語手勢相一致的作為最終確定的識別結(jié)果。
進一步地,所述步驟一具體為:通過pycharm集成編譯環(huán)境利用python語言調(diào)用MediaPipe框架識別手部位置,并獲得手部各個特征點。
進一步地,所述步驟二具體為:通過上一步驟得到了21個三維坐標(biāo)點,拿出一個坐標(biāo)點作為基本點,計算其它20個坐標(biāo)點到這個點的距離,具體包括:由于手語手勢的識別屬于靜態(tài)手語識別,在MediaPipe框架下得到的手部特征點坐標(biāo)中的0點偏向于手腕位置,手腕位置在手語手勢中位置特征信息可以忽略不計,所以基于此點建立三維坐標(biāo)系,得到其余點到原點的空間距離,形成每一幅圖得到一組數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱理工大學(xué),未經(jīng)哈爾濱理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210448144.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





