[發明專利]一種基于深度學習的車載視頻目標檢測方法有效
| 申請號: | 201910185300.4 | 申請日: | 2019-03-12 |
| 公開(公告)號: | CN109977812B | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 張登銀;金天宇;丁飛;趙莎莎;劉錦;薛睿;聶涵;王雪純 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06V20/56 | 分類號: | G06V20/56;G06V20/40;G06V10/44;G06V10/774;G06V10/764 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 車載 視頻 目標 檢測 方法 | ||
1.一種基于深度學習的車載視頻目標檢測方法,其特征是,包括如下步驟:
步驟1)將深度坐標下的像素對齊到彩色坐標下;再將深度圖像和彩色圖像各自通過CNN進行特征提取,并將各自卷積層輸出的特征圖在通道維度上進行串聯融合得到最終的RGB-D特征作為卷積后的卷積特征映射;
構建區域建議網絡RPN,所述區域建議網絡RPN包括一個3×3的卷積層和兩個1×1的并行卷積層;將融合后的卷積特征映射輸入3×3的卷積層,在輸入的特征映射上以像素為單位滑動預設大小的網絡,則每個滑動位置產生特定尺度的錨點;
將產生的錨點輸入兩個1×1的并行卷積層進行位置回歸和前后景判斷,分別輸出錨點的前后景置信度和所有候選框位置并按照預設條件從所得的矩形后選框中篩選滿足特定條件的預設數量的區域,得到最終的區域建議集合C;
步驟2)構建Fast R-CNN模型:
所述Fast R-CNN模型由兩個ROI池化層、一個全連接層和兩個并聯的全連接層組成,分別輸出該區域的置信度以及邊框回歸之后的候選框位置;將融合后的卷積特征輸入FastR-CNN模型,輸出圖像中目標的位置及其類別和置信度;
步驟3):構建訓練RPN網絡的代價函數和訓練Fast R-CNN網絡的代價函數;
步驟4)使用標準的ZF模型訓練和微調網絡的各項參數,通過從設定的標準方差的零均值高斯分布中提取權重來隨機初始化所有新層;
步驟5)利用反向傳播算法和隨機梯度下降算法,采用對RPN和Fast R-CNN兩個網絡交替訓練的方式對模型進行訓練,根據預先設置的參數依次調整每層神經網絡的權值;
步驟6)使用預先獲得的訓練集測試初步訓練好的Faster R-CNN模型,根據難樣本的判別公式篩選出難樣本;
步驟7)將步驟6)中產生的難樣本加入訓練集中,對網絡再次進行訓練,重復步驟5)-步驟7),得到最優的Faster R-CNN模型;
步驟8)對實際中采集的車載視頻圖像進行處理,輸入訓練好的Faster R-CNN模型中,輸出該圖像中目標類別、置信度以及目標位置;
所述難樣本判別公式如下:
L(o,p)=LIoU(o)+Lscore(p),
Lscore(p)=(1-p),
其中,LIoU為邊框誤差;Lscore為分類誤差;o為樣本與目標的相交率;k為對閾值的敏感系數;o和p的取值范圍均為0~1。
2.根據權利要求1所述的一種基于深度學習的車載視頻目標檢測方法,其特征是,RGB-D特征作為RPN和Fast R-CNN共享的卷積特征映射,其矩陣形式為:
其中,i,j,K為中間變量,i~[0,h-1],j~[0,w-1],K~[0,2c-1],h為特征圖的高,w為特征圖的寬,c為RGB三個通道;YRGB(i,j,K)是通道串聯后的圖像特征;Ydepth(i,j,K-c)是彩色圖像特征;
Ymerge(i,j,K)是深度圖像特征。
3.根據權利要求1所述的一種基于深度學習的車載視頻目標檢測方法,其特征是,所述訓練RPN網絡的代價函數為:
其中,將與標定過的真實數據的交并比最大或不低于0.7的錨點標為正樣本,Pi為預測置信度;Pi*為標注值,取1時表示正樣本,取0時表示負樣本;i表示錨點的索引;Ncls為錨點總數量;Nreg為正樣本的數量;ti為預測的錨點邊界框修正值;為實際的錨點邊界框修正值;Lcls為分類代價;Lreg為邊框回歸代價;λ為平衡權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910185300.4/1.html,轉載請聲明來源鉆瓜專利網。





