[發明專利]基于深度學習的手勢識別的多標簽圖像預處理方法有效
| 申請號: | 201810366869.6 | 申請日: | 2018-04-23 |
| 公開(公告)號: | CN108898045B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 顏成鋼;呂曉泉;張勇東 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 手勢 識別 標簽 圖像 預處理 方法 | ||
本發明公開了一種基于深度學習的手勢識別的多標簽圖像預處理方法。本發明步驟如下:1.獲取已標記的多個特征點的坐標;2.在坐標中選出圖像平面坐標系中x的最大和最小值,y的最大和最小值,確認坐標點A(xmin,ymin)和坐標點B(xmax,ymax);3.利用坐標A和B定位目標在圖像中標簽有效的方形區域P,同時在區域P邊緣的坐標點應按規則留有余量,從而得到拓展后的方形區域P1,并對區域P1的長和寬更新;4.比較區域P1的長和寬從而得到一個新的方形區域P2;5.計算裁剪圖中特征點的坐標,作為裁剪圖的標簽。本發明在原圖像中裁剪出包含目標的正方形圖像,盡可能少的添加通道,減少背景冗余度,保留目標特征。
技術領域
本發明涉及基于深度學習的手勢識別的圖像預處理方法,適用于被識別目標有復雜的背景且有多個標簽為二維坐標的特征點。
背景技術
為了使神經網絡的損失值更好更快的收斂,得到優秀識別率的模型,被訓練的三維圖像在輸入網絡前均會進行一系列預處理。目前,無論科研人員使用深度學習進行分類任務還是回歸任務,都會把數據集原始圖像的長寬直接縮放到同等大小,或者為了保證原圖像長寬比例不變,在短的一側添加0通道,使長寬一致,這樣為尺度歸一化。但是這樣做的后果是,前者壓縮了原圖像的長寬比例導致圖像中被檢測的目標物體發生變形,損失了紋理特征,使準確率下降;后者雖然保留了紋理特征,但是會添加許多相同像素值的通道,這不屬于圖像中的信息,增加了圖像的冗余度,所以同樣會對準確率造成很大的影響。
同時在目標在圖像中所占的比例較小,其背景也很復雜的情況下,圖片中無用的信息太多,不利于神經網絡提取目標特征,背景的冗余和噪聲較多,神經網絡會在訓練時不容易收斂,訓練時間較長,對服務器 GPU造成負擔,且模型準確率也會受到影響。
發明內容
本發明主要解決的技術問題是在基于深度學習的手勢識別圖像預處理過程中,減少目標背景的冗余度,同時在原圖像長寬比例不變并添加通道時更多的保留目標的特征。
為了實現上述目的,本發明采用的技術方案如下:
步驟1.獲取已標記的多個特征點的坐標點 (x1,y1),(x2,y2)...(x21,y21),所述的多個特征點的坐標點也是網絡學習時的標簽。
步驟2.在坐標點中分別選出圖像平面坐標系中x的最大值xmax和最小值xmin,y的最大值ymax和最小值ymin,確認坐標點A(xmin,ymin) 和坐標點B(xmax,ymax);
Xmax=max[x 1,x 2...x21];
Xmin=min[x 1,x 2...x 21];
ymax=max[y1,y2...y21];
ymin=min[y1,y2...y21];
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810366869.6/2.html,轉載請聲明來源鉆瓜專利網。





