[發明專利]一種基于深度學習的目標檢測與識別方法有效
| 申請號: | 201710268957.8 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN107229904B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 張云洲;付興;張鵬飛;李奇;賈存迪;鄭瑞;劉雙偉 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 梅洪玉 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 目標 檢測 識別 方法 | ||
1.一種基于深度學習的行人檢測算法,其特征在于以下步驟,
步驟一:首先對輸入圖像進行5次卷積和5次下采樣;卷積公式表述為:
O=∑i,j∈nWi,j*Ii′,j′ (1)
其中,wi,j是n*n大小的卷積核位置i,j處的參數;Ii′,j′是與卷積核元素對應位置的像素值;
下采樣操作中,步長取2;下采樣是用一個n*n的核在大的N*M的矩陣上滑動,選出當前與核對應位置的最大值或均值;下采樣方法有兩種:最大值采樣和均值采樣,公式表述分別為:
O=maxIi′,j′ (2)
其中,Ii′,j′表示圖像中與核窗口對應的像素;n代表窗口核的尺寸;
步驟二:使用兩個RPN層生成候選窗口;一個RPN層的輸入來自卷積層5,另一個RPN層的輸入來自卷積層3,RPN層的出發點是考慮在卷積神經網絡中,與目標識別任務共用一組卷積操作以及卷積得到的特征;RPN使用的目標函數也應該同時包含這兩個部分,如式(4);
其中,i是每個小窗口的索引;pi代表該窗口是物體的概率,取值為1或0,分別表示窗口是或不是目標物體;ti是一個四維的向量,表示該窗口的預測位置,是窗口的實際位置;Ncls與Nreg歸一化系數,分別采用網絡處理的圖片數量與小窗口數量做歸一化,λ用來平衡二者的權重,二者的權重設置為相同的;設置λ=10;Lcls(·)實際是二分類問題的目標函數,Lreg(·)是位置回歸函數;
步驟三:將RPN層得到的候選框經過篩選后輸入到ROIPooling層;ROI Pooling層采用最大值池化算法把任意有效的感興趣區域變換成一個固定尺度的特征圖;感興趣區域是來自卷積特征圖中的一個矩形窗口,每一個感興趣區域用一個四元組表示roi:(r,c,h,w);其中,(r,c)指定窗口的左上角坐標,h,w分別代表窗口的高度與寬度;
ROI Pooling層要得到的固定輸出尺寸為H*W,采用的方法是把原h*w的窗口劃分為多個子窗口,子窗口的大小為:
然后在各個子區域中再做標準的最大值采樣;
步驟四:將ROI Pooling層的輸出輸入到全連接層中,通過全連接層的處理,使得輸出從二維矩陣變成了一維向量;
步驟五:在全連接層之間加入一個Sparse PCA層,實現在網絡的末端進行數據降維,減少參數量,簡化模型;Sparse PCA層的前向傳播公式簡寫為:
V=YX (6)
其中,Y為(UTU+δI)-1UT;X的每一行為一個樣本,同樣V的每一行為對應X的編碼;再考慮每一條輸入的情況,V中各元素表示為和的形式:
步驟六:最后再通過一個全連接層連接網絡的位置預測輸出和類別預測輸出;
步驟七:在測試階段,到步驟六就結束了,在訓練階段,通過得到的位置預測輸出和類別預測輸出再返回輸入處對比真實值,通過對比與真實值的差值,重新再在下一次的訓練中修改權重參數,達到讓模型具有學習的功能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710268957.8/1.html,轉載請聲明來源鉆瓜專利網。





