[發明專利]基于深度學習的監控場景下人物姿態識別方法在審
| 申請號: | 201711012951.0 | 申請日: | 2017-10-26 |
| 公開(公告)號: | CN107909005A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 宋彬;關韜;郭潔 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心61205 | 代理人: | 田文英,王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 監控 場景 人物 姿態 識別 方法 | ||
1.一種基于深度學習的監控場景下人物姿態識別方法,其特征在于,包括如下步驟:
(1)輸入圖像:
選取任意分辨率的監控場景下包含行人的彩色圖像,作為輸入圖像;
(2)利用快速區域卷積神經網絡獲取行人目標框:
(2a)將輸入圖像調整到1000×600像素的大小,得到調整后的圖像;
(2b)使用快速區域卷積神經網絡中的深度特征提取網絡VGG,對調整后圖像的三個通道信息中的每個通道,分別進行卷積和下采樣特征提取處理,得到512張大小為63×37像素的特征圖conv5-3maps;
(2c)將所有的特征圖conv5-3maps,輸入到區域建議網絡RPN中兩個并行的全連接神經網絡中,分別進行分類和回歸操作,獲得63×37×9個錨點anchor的分類結果和位置結果,從中挑選出分類結果中得分最高的前300個anchor和與之對應的位置結果;
(2d)對300個anchor的位置結果進行conv5-3maps映射操作,得到300個對應的位置映射圖;
(2e)將300個位置映射圖輸入到快速區域卷積神經網絡中的感興趣區域池化層ROI Pooling,得到300個大小為7×7像素的特征圖;
(2f)將300個大小為7×7像素的特征圖輸入到快速區域卷積神經網絡最后兩個并行的全連接神經網絡中,分別進行分類和回歸操作,獲得300個分類結果和對應的位置結果,從中挑選出行人的位置;
(2g)對行人的位置進行非極大值抑制處理NMS,將抑制后的行人位置,作為行人目標框;
(3)利用全卷積神經網絡對行人目標框進行掩碼處理:
(3a)將行人目標框輸入到全卷積網絡中,得到與目標框大小相等的二值掩碼矩陣,二值掩碼中的0表示背景區域,二值掩碼中的1表示行人區域;
(3b)建立一個與目標框大小相等的零矩陣;
(3c)填充零矩陣,得到經掩碼處理的行人目標框;
(4)訓練活動基Active Basis模型:
(4a)將經掩碼處理的行人目標框,按照用戶選取的姿態類別標簽和數量,進行分類標注;
(4b)從每一類標注后的圖像中隨機取出百分之八十作為訓練圖像,剩余百分之二十作為測試圖像;
(4c)隨機選取50個不同方向的Gabor濾波器作為特征基;
(4d)根據每張訓練圖像與50個特征基中每個特征基的卷積值和50個特征基中每個特征基的位置偏移量,計算50個特征基的權值和50個特征基的更新值;
(4e)將50個特征基的權值和50個特征基的更新值組成訓練模型,保存為訓練文件;
(5)計算測試圖像的預測值:
加載訓練文件,根據特征基的權值和特征基的更新值,計算測試圖像的預
測值;
(6)輸出預測值:
輸出所有測試圖像的預測值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711012951.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種3D掌紋識別技術
- 下一篇:基于圖像處理的高嶺巖識別分選系統





