[發明專利]一種基于Faster RCNN深度學習網絡改進的車型識別方法有效
| 申請號: | 202110451591.4 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113205026B | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 付仲良;胡捷;李剛 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06V20/54 | 分類號: | G06V20/54;G06V10/20;G06V10/25;G06V10/764;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 faster rcnn 深度 學習 網絡 改進 車型 識別 方法 | ||
1.一種基于Faster RCNN深度學習網絡改進的車型識別方法,包括以下內容:
步驟1:引入原始車輛圖像數據集,將原始車輛圖像數據集中每幅原始車輛圖像進行格式判別與解碼,并對圖像進行圖像的寬高調整使規格統一化,得到預處理后車輛圖像數據集,將預處理后車輛圖像數據集中每幅預處理后車輛圖像依次通過直方圖均衡化處理、HSV亮度變換增強處理、高斯濾波處理得到樣本圖像,通過多個樣本圖像構建車型識別圖像數據集,在每個樣本圖像中通過人工標注方式得到多個目標的標記框、多個目標的目標類型即車型,直到各目標類型樣本數量均大于訓練所需閾值,以此構建車輛圖像車型識別網絡訓練集;
步驟2:構建特征提取網絡,將步驟1中所述車輛圖像車型識別網絡訓練集每個樣本圖像依次輸入至特征提取網絡,得到每個樣本圖像對應的融合特征;
步驟3:構建RPN目標識別網絡,將步驟2中所述每個樣本圖像對應的融合特征作為輸入數據依次輸入目標識別網絡,得到每個樣本圖像的目標識別候選區域;
步驟4,構建車輛車型分類模塊,將步驟3中的融合特征neoFeatureMaps與候選框區域信息集合anchors′i,s(a,b,w,h)輸入至包含改進的Softmax綜合多分類器,對候選區域內的目標車型進行類別判斷,并通過位置回歸確定目標定位框最終坐標;
步驟5,構建網絡整體損失函數模型;
步驟6,訓練整體網絡,將前述步驟2~5構建的網絡按照以下流程進行訓練;
步驟1所述車型識別圖像數據集為:
{VehicleTypes(m,n),s∈[1,S],m∈[1,M0],n∈[1,N0]}
其中,VehicleTypes(m,n)表示車型識別圖像數據集中第s幅車輛圖像第m行第n列的像素信息,S表示車型識別圖像數據集中所有圖像樣本的數量,M0為車型識別圖像數據集中每幅含車輛圖像的行數,N0為車型識別圖像數據集中每幅車輛圖像的列數;
步驟1所述車型識別圖像數據集中每幅車輛圖像的車輛目標識別標記框坐標為:
其中,l表示車輛圖像上的左,t表示車輛圖像上的上,r表示車輛圖像上的右,b表示車輛圖像上的下;S表示車型識別圖像數據集中所有車輛圖像的數量,
Ks表示車型識別圖像數據集中第s幅車輛圖像中目標識別標記框的總數;boxs,k表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框的坐標,
表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框左上角的坐標,表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框左上角的橫坐標,表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框左上角的縱坐標;表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框右下角的坐標,表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框右下角的橫坐標,表示車型識別圖像數據集中第s幅車輛圖像中第k個目標識別標記框右下角的縱坐標;
步驟1所述車型識別圖像數據集中每幅車輛圖像的目標識別標記框類別信息為:
labels,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]
其中,C為車型識別圖像數據集中車輛類型的總數,包括公交車,小型客車,小型貨車,轎車,SUV和卡車這六個車輛類型;labels,k,c表示車型識別圖像數據集中第s幅車輛圖像的第k個目標識別標記框屬于第c種車輛類型;
步驟1所述車輛圖像車型識別網絡訓練集為:
{VehicleTypes(m,n),(boxs,k,labels,k,c)}
s∈[1,S],m∈[1,M0],n∈[1,N0],k∈[1,Ks],c∈[1,C]
其中,VehicleTypes(m,n)表示車型識別網絡訓練集中第s幅道路車輛圖像第m行第n列的像素信息,boxs,k表示車型識別網絡訓練集中第s幅車輛圖像中第k個目標識別標記框的坐標,labels,k,c表示車型識別網絡訓練集中第s幅車輛圖像第k個目標識別標記框屬于第c種車輛類型;S表示車型識別網絡訓練集中所有圖像樣本的數量,M0為車型識別網絡訓練集中每幅車輛圖像的行數,N0為車型識別網絡訓練集中每幅車輛圖像的列數,Ks表示車型識別網絡訓練集中第s幅車輛圖像中目標識別標記框的總數,C為車型識別網絡訓練集中的車輛類型總數;
步驟2所述特征提取網絡包括:第一卷積層、第二卷積層、...、第LA卷積層、第一改進的最大池化層、第二改進的最大池化層、...、第LB改進的最大池化層、特征融合層,2*LB<LA且原則上每兩個改進的最大池化層之間串聯的卷積層數量≥2;
所述的第一卷積層、第二卷積層、...、第LA卷積層依次級聯;
所述的第一卷積層、第二卷積層、...、第LA卷積層中選擇LB組相鄰的卷積層,每組組相鄰的卷積層分別通過第t改進的最大池化層級聯連接,t∈[1,LB];
所述第LA卷積層與所述特征融合層連接;
所述第t改進的最大池化層與所述特征融合層連接,t∈[1,LB];
步驟1中所述的圖像訓練集中每個樣本圖像輸入至所述第一卷積層;
所述第t改進的最大池化層包含側輸出通道、池化處理單元的處理通道;
所述第t改進的最大池化層的側輸出通道將相鄰的上一層串聯的卷積層,即第q卷積層的輸出特征不經處理直接作為側輸出特征輸出至特征融合層,其中q∈[2t-1,2LB-1];
所述第t改進的最大池化層的處理通道通過使用核為2×2、步長為2的最大值池化矩陣處理上一層串聯的卷積層即第q卷積層的輸出特征,其中q∈[2t-1,2LB-1],通過步長為2的最大值池化操作遍歷特征矩陣,得到第t最大池化特征,輸出至相鄰的下一層串聯卷積層,即第q+1卷積層;
所述第LA卷積層輸出卷積特征;
所述特征融合層由尺寸調整模塊與融合模塊串聯級聯構成;
所述尺寸調整模塊為并聯結構,由LB個尺寸調整單元并聯組成,第1最大池化層側輸出特征、第2最大池化層側輸出特征、...、第LB最大池化層側輸出特征分別輸入尺寸調整模塊對應的尺寸調整單元;
對應卷積特征尺寸為N×N×M,則每個尺寸調整單元將對輸入的最大池化特征進行卷積處理,通過M個尺寸為1×1的卷積核將特征矩陣的通道數調整為M,隨后進行池化處理,通過1個尺寸為N×N、步長為N的卷積核將特征矩陣的尺寸最終調整為N×N×M,得到尺寸調整后最大池化特征;
尺寸調整后第1最大池化層側輸出特征、...、尺寸調整后第LB最大池化層側輸出特征與卷積特征尺寸一致,該模塊將LB+1個特征一并輸出至融合模塊中;
所述融合模塊對尺寸調整后第1最大池化層側輸出特征、...、尺寸調整后第LB最大池化層側輸出特征、卷積特征進行求和融合處理,融合模塊最終輸出圖像訓練集中每個樣本圖像對應的融合特征FeatureMaps,其中s∈[1,S],S表示車型識別網絡訓練集中所有圖像樣本的數量,為M維N×N規格的特征矩陣集合;
步驟3所述目標識別網絡包括:候選框生成層、前景背景分類層、候選區域定位層、候選區域選定層、感興趣區域池化層;
所述候選框生成層依次串聯前景背景分類層和候選區域定位層;
所述前景背景分類層與所述候選區域定位層并聯連接,進一步接入候選區域選定層;
所述候選區域選定層與所述感興趣區域池化層連接;
步驟2中所述每個樣本圖像的融合特征即FeatureMaps輸入所述候選框生成層,其中s∈[1,S];
所述候選框生成層由一個大小為3×3卷積核對輸入的融合特征FeatureMaps進行卷積處理,在不改變特征維度的情況下使特征圖上每個特征點fi,i∈[1,N×N]融合周圍大小為3x3范圍內的空間信息,產生特征點Fi,i∈[1,N×N],形成neoFeatureMaps,其中
s∈[1,S],隨后針對neoFeatureMaps上的每一個特征點Fi,以該點為中心,產生k個的大小及形狀各不相同的框,這些框以該特征點為中心,將這k個框稱為錨,將錨定義為anchori,j,s,每個anchori,j,s包含特征點位置信息a,b以及框的寬高w,h,即:
{anchori,j,s(a,b,w,h),i∈[1,N×N],j∈[1,k],s∈[1,S],a∈[1,N],b∈[1,N],w∈[1,3],h∈[1,3]}
其中,i表示該錨對應的特征點Fi的序號,j表示該錨為特征點Fi上的第j個錨,s表示該錨位于第s張樣本圖像對應的neoFeatureMaps上,a表示該錨對應中心即特征點Fi的橫坐標,b表示該錨對應中心即特征點Fi的縱坐標,w表示該錨的對應框寬度,h表示該錨的對應框高度,anchori,j,s表示第s幅樣本圖像對應特征圖的第i個特征點的第j個錨;
對于每個尺寸為N×N的FeatureMaps,會分別輸出包含k×N×N個錨的特征圖信息至前景背景分類層與候選區域定位層;
所述前景背景分類層包含一個Softmax分類器,將輸入的融合特征FeatureMaps中每一個錨進行二分類Softmax卷積分類判定,對應的k×N×N個錨均會產生用于判別該錨為背景background或前景foreground的分數值scorei,s,b\f,其中i∈[1,N×N],s∈[1,S],根據Softmax二分類結果決定下標,即每個錨對應代表前景與背景的分數值,當分數值下標為b時該錨對應背景區域,當分數值下標為f時該錨對應前景區域,每個融合特征將產生(k×N×N)個分數值scorei,s,b\f,并輸出至候選區域選定層,對應的二分類損失函數為Lcls_rpn;
所述候選區域定位層使用邊界回歸算法對每個錨求得位置偏移量與尺度偏移量集合Δ,設置偏移量閾值q,即
{Δi,s=(ta,tb,tw,th),i∈[1,N×N×k],s∈[1,S],ta∈(0,q),tb∈(0,q),tw∈(0,q),th∈(0,q)},將(k×N×N)個偏移量集合Δ輸出至候選區域選定層,對應的邊界回歸損失函數為Lreg_rpn;
所述候選區域選定層輸入(N×N×k)個錨和偏移量集合Δ,首先根據偏移量閾值q對偏移量集合進行篩選,剔除位置偏移量或尺度偏移量大于q的對應錨,之后再利用位置偏移信息對所有的錨做位置修正:每個Δi,s對應一個anchori,j,s(a,b,w,h)通過對應值補償進行位置修正處理,然后按照前述前景背景分類層中Softmax分類器判定前景所打的k個
scorei,s,f由大到小進行排列,取排名前P個錨,接著剔除超出圖像邊界或尺寸過小的錨,最后對剩下的錨做NMS非極大值抑制處理,包括以下步驟:
將所有框的得分排序,選中最高分及其對應的框;
遍歷其余的框,如果和當前最高分框的重疊面積(IOU)大于一定閾值,將該框刪除;
從未處理的框中繼續選一個得分最高的,重復上述過程,直到每一特征點最多保留一個錨;
將候選區域信息anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S],輸出至ROI池化層;
所述感興趣區域池化層接收由上述候選區域選定層輸出的候選框區域anchors′i,s以及步驟2輸出的融合特征FeatureMaps,將每個候選區域對應的FeatureMap區域等分為pool_w×pool_h的網格,對網格的每一份進行大小為2×2步長為2的max pooling最大池化操作,將大小尺寸不一樣的候選區域框統一為標準尺寸,并輸出經池化處理的anchors′i,s(a,b,w,h)至車輛車型分類模塊;
步驟4所述車輛車型分類模塊包括:全連接預處理層、改進的Softmax綜合多分類器、位置回歸層、輸出層;
所述的全連接預處理層分別與所述的改進的Softmax綜合多分類器串聯連接、位置回歸層依次連接;
所述位置回歸層與所述輸出層連接;
所述改進的Softmax綜合多分類器與所述輸出層連接;
所述全連接預處理層由第一全連接模塊、第二全連接模塊串聯組成;
每個全連接模塊由全連接層、Relu函數激活層串聯組成;
包含特征與候選框區域的集合anchors′i,s(a,b,w,h),i∈[1,N×N],s∈[1,S]與neoFeatureMaps,s∈[1,S]輸入所述全連接預處理層;
經所述的第一全連接模塊、第二全連接模塊全連接處理后將得到處理后的融合特征neoFeatureMap′s,輸入至所述的改進的Softmax綜合多分類器,將得到的處理后目標錨anchors″i,s輸入至位置回歸層;
所述改進的Softmax綜合多分類器接收全連接處理層輸入的特征信息,輸出第s幅樣本圖像對應特征圖的第k個候選區域屬于第c類的概率數值label_scores,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C]至輸出層,其中S為所有樣本圖像總數,
Ks為第s幅車輛圖像中目標識別標記框的總數,C為車型識別圖像數據集中車輛類型的總數,相應的改進的Softmax多分類損失函數為Lcls_fast,該損失函數由中心損失函數Ls和Softmax損失函數Lc融合組成,即:Lcls_fast=Ls+Lc;
所述位置回歸層接收全連接處理層輸入的anchors位置信息anchors″i,s(a,b,w,h),使用邊界回歸算法處理,設置偏移量閾值q′,輸出位置偏移量集合Δ′i,s,即{Δ′i,s=(t′a,t′b,t′w,t′h),i∈[1,N×N],s∈[1,S],t′a∈(0,q′),t′b∈(0,q′),t′w∈(0,q′),t′h∈(0,q′)},其中i表示該偏移量對應錨所對應特征點Fi的序號,S表示所有樣本圖像總數;
所述輸出層接收綜合多分類器的分類數值結果label_scores,k,c,以及位置回歸層的位置偏移量集合Δ′i,s,每個Δ′i,s對應一個anchors″i,s(a,b,w,h)通過對應值補償進行位置修正處理,最終輸出結果包括:輸出車型識別網絡訓練集中所有圖像樣本對應的最終定位框位置集合box_outs,k,s∈[1,S],k∈[1,Ks]和最終車型分類結果集合
label_outs,k,c,s∈[1,S],k∈[1,Ks],c∈[1,C];
其中:
所述定位框集合表達式box_outs,k的角標含義與所述車型識別圖像數據集中每幅車輛圖像的車輛目標識別標記框表達式boxs,k對應,所述車型分類結果集合表達式label_outs,k,c的角標含義與所述車型識別圖像數據集中每幅車輛圖像的目標識別標記框類別信息表達式labels,k,c對應,區別在于boxs,k和labels,k,c為給定真值,而box_outs,k和label_outs,k,c中相應的值為訓練輸出結果;
步驟5所述網絡整體損失函數模型為:
Ltotal=Lcls_rpn+Lcls_fast+Lreg_rpn+Lreg_fast
其中,Lcls_rpn表示RPN網絡中二分類損失函數,Lreg_rpn表示RPN網絡中位置回歸損失函數,Lcls_fast表示車輛車型分類模塊中多分類損失函數,Lreg_fast表示車輛車型分類模塊中位置精修處理的位置回歸損失函數;
所述RPN網絡中二分類損失函數的公式如下:
其中,pi為anchor被預測為目標的概率,表示樣本的標簽值,當其為目標時,取值為1,當其為背景時,取值為0,N×N×k為錨的總數量;如公式所示,Lcls_rpn是一個二分類交叉熵對數損失函數,計算每一個anchor的對數損失,然后對所有anchors的損失求和,再除以anchors總數;
所述RPN網絡中位置回歸損失函數的公式如下:
其中,N×N×k為正負樣本的總數,Δi,s=(ta,tb,tw,th),表示預測anchor的位置偏移量,是與Δi,s相同維度的向量,表示anchor與真實位置的實際偏移量;
表示樣本的標簽,當其為目標時,取值為1,當其為背景時,取值為0;R是smoothL1函數,公式如下所示:
其中,σ一般取值為3;
所述車輛車型分類模塊中多分類損失函數的公式如下:
Lcls_fast=Ls+Lc,
其中,xi為第i深度特征,Wj為最后一個全連接層中權重的第j列,m、n分別為處理的樣本數量與類別數;Cyi為第i類的特征中心坐標,anchors″j,s(a,b)為輸入特征坐標。β為權重參數,β在0到1之間進行取值,是一個可以調節兩個損失函數貢獻比例的超參數。當增大β時,在整個目標函數中,類內差異所占的比重也相應增大,生成的特征就會有明顯的內聚性;當減小β時,在整個目標函數中,類內差異所占的比重也相應減小;
所述車輛車型分類模塊中位置精修處理的位置回歸損失函數的公式如下:
其中,Nreg為正負樣本的總數,Δ′i,s=(t′a,t′b,t′w,t′h),表示預測anchor的位置偏移量,是與Δ′i,s相同維度的向量,表示對應錨與真實位置的實際偏移量;表示樣本的標簽,當其為目標時,取值為1,當其為背景時,取值為0,;R是smoothL1函數,與前述結構相同;
所述步驟6具體如下:
單獨訓練RPN網絡,用ImageNet預訓練的模型初始化訓練的模型,通過end to end的方法對參數進行微調,經過該步驟特征提取模塊和RPN網絡的參數得到了更新;
單獨訓練特征提取網絡與車輛車型分類模塊,此處將兩者合稱Fast rcnn網絡,訓練時用到的proposal由第一步中的RPN生成,同樣使用ImageNet預訓練的模型初始化Fast rcnn網絡,此時的RPN和Fast rcnn網絡暫無共享網絡,經過該步驟特征提取網絡與Fast rcnn網絡的參數得到更新;
用Fast rcnn網絡初始化RPN網絡訓練,固定共享的卷積層,即候選框生成層處理的第一步3×3卷積處理單元,只調整RPN的網絡層,從而實現卷積層的共享;經過該步驟只有RPN的參數得到更新;
繼續固定共享的卷積層,以上一步更新后的RPN生成的proposal為輸入,對Fast rcnn網絡的參數進行微調,此時,RPN和Fast rcnn共享相同的卷積層,形成統一的網絡,Fastrcnn網絡的參數得到更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110451591.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種太赫茲氣體激光器
- 下一篇:MSI的湖泊富營養指數遙感估算方法





