[發(fā)明專利]一種基于密集連接深度網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201911188895.5 | 申請(qǐng)日: | 2019-11-28 |
| 公開(公告)號(hào): | CN110991311B | 公開(公告)日: | 2021-09-24 |
| 發(fā)明(設(shè)計(jì))人: | 陳瑩;潘志浩;化春鍵 | 申請(qǐng)(專利權(quán))人: | 江南大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市陽光惠遠(yuǎn)知識(shí)產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 彭素琴 |
| 地址: | 214000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 密集 連接 深度 網(wǎng)絡(luò) 目標(biāo) 檢測(cè) 方法 | ||
1.一種基于密集連接深度網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法,其特征在于,包括以下步驟:
步驟(1):讀入Pascal VOC數(shù)據(jù)集中的圖像數(shù)據(jù)并提取目標(biāo)數(shù)據(jù)特征;
步驟(2):訓(xùn)練網(wǎng)絡(luò)模型;
步驟(3):進(jìn)行目標(biāo)檢測(cè);
具體的步驟為:
步驟(1):讀入Pascal VOC數(shù)據(jù)集中的圖像數(shù)據(jù)并提取目標(biāo)數(shù)據(jù)特征:網(wǎng)絡(luò)讀取輸入的圖像數(shù)據(jù),首先將其分辨率歸一化為416*416,然后通過一個(gè)卷積層和一個(gè)池化層后得到輸出大小為208*208的特征映射圖,再經(jīng)過5個(gè)密集連接模塊對(duì)待檢測(cè)圖像進(jìn)行特征提取,得到13x13大小的特征圖,并將提取得到的13x13大小的特征圖進(jìn)行上采樣,得到26x26大小的特征映射圖;其中卷積層中卷積核大小為3*3,步長為1;池化層中池化的核大小為2*2,步長為2;
步驟(2):訓(xùn)練網(wǎng)絡(luò)模型:設(shè)置網(wǎng)絡(luò)batch為64,重復(fù)迭代訓(xùn)練得到檢測(cè)模型;
步驟(3):進(jìn)行目標(biāo)檢測(cè):網(wǎng)絡(luò)首先通過特征提取網(wǎng)絡(luò)對(duì)輸入圖像提取特征,得到一定尺寸的k*k特征圖,然后將輸入圖像分為k*k個(gè)單元格,每個(gè)單元格預(yù)測(cè)固定數(shù)量的邊界框;預(yù)測(cè)時(shí)采用邏輯回歸,用于預(yù)測(cè)每個(gè)邊界框的目標(biāo)性得分,即這塊區(qū)域是目標(biāo)的可能性有多大;而后進(jìn)行非極大值抑制NMS,最后輸出檢測(cè)結(jié)果;
所述步驟(1)還包括:
①引入的密集連接方式,使得L層網(wǎng)絡(luò)有L(L+1)/2個(gè)連接;其中的密集連接模塊DenseBlock主要是由1*1和3*3的卷積層組成,其中的1*1卷積操作又被成為bottleneck layer;3*3卷積則是用于提取圖像特征;密集連接模塊Dense Block中每一層的輸入來自前面所有層的輸出;下式表明了第l層的輸入即為之前所有層的輸出之和;
xl=Hl([x0,x1,…,xl-1])
其中,xl表示第l層的輸出,[x0,x1,L,xl-1]表示第0,L,l-1層輸出的級(jí)聯(lián);上式中Hl(g)表示三個(gè)連續(xù)運(yùn)算的復(fù)合函數(shù),由BN、ReLU和一個(gè)3*3的卷積層組成;
②減少密集連接模塊Dense Block中卷積層輸出特征圖數(shù)量;其中,Dense Block1設(shè)定特征映射圖數(shù)量為16,Dense Block2、Dense Block3、Dense Block4、Dense Block5設(shè)定為32、64、128、256;輸出特征圖數(shù)量不斷遞增的目的是使網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像數(shù)據(jù)中更為豐富的高層語義信息,增加定位的精確度;
③將網(wǎng)絡(luò)分為多個(gè)密集連接模塊Dense Block,其中,設(shè)定不同Dense Block的特征圖數(shù)量均不相同且每個(gè)Dense Block的特征圖輸出數(shù)量都呈倍數(shù)增長,數(shù)量分別為16,32,64,128,256,并將每個(gè)Dense Block中卷積得到特征圖的輸出大小都設(shè)定為相同;
所述步驟(2)包括:
設(shè)置網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,動(dòng)量設(shè)為0.9,權(quán)重衰減正則項(xiàng)為0.0005,網(wǎng)絡(luò)最大的迭代次數(shù)為500200,網(wǎng)絡(luò)的學(xué)習(xí)率在迭代次數(shù)到達(dá)400000和450000時(shí)衰減10倍;同時(shí)網(wǎng)絡(luò)使用多尺度訓(xùn)練,網(wǎng)絡(luò)讀取數(shù)據(jù)后,圖像歸一化分辨率的寬高在320~608之間取隨機(jī)值,且每10輪隨機(jī)改變一次,隨機(jī)值均為32的倍數(shù);
所述步驟(3)包括:
①yolov3-tiny使用K-means聚類算法聚類數(shù)據(jù)集中真實(shí)框,為步驟(1)中得到的兩種尺度13x13、26x26的特征圖設(shè)定3個(gè)不同大小的先驗(yàn)框,總共聚類出6個(gè)不同尺寸的先驗(yàn)框;
兩種不同尺度的6個(gè)先驗(yàn)框大小如下所示:
②使用6個(gè)不同先驗(yàn)框Anchors在兩種不同尺度13x13、26x26的特征映射圖上進(jìn)行預(yù)測(cè);在對(duì)邊界框進(jìn)行預(yù)測(cè)的時(shí)候,為了更好的數(shù)據(jù)建模以及支持多標(biāo)簽分類,網(wǎng)絡(luò)采用邏輯回歸logistic regression;網(wǎng)絡(luò)邊界框的坐標(biāo)預(yù)測(cè)公式如下:
bx=σ(tx)+cx
by=σ(ty)+cy
其中tx、ty、tw、th為模型的實(shí)際預(yù)測(cè)值,cx和cy表示grid cell的坐標(biāo)偏移量,pw和ph表示anchor box的寬高,bx、by、bw和bh為最終得到的邊界框的中心的坐標(biāo)和寬高;坐標(biāo)的訓(xùn)練采用的是平方和誤差損失;
③設(shè)定非極大值抑制NMS的閾值為0.45。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江南大學(xué),未經(jīng)江南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911188895.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





