[發明專利]一種自適應確定目標尺寸和感受野大小的方法有效
| 申請號: | 202110449343.6 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113378876B | 公開(公告)日: | 2022-11-15 |
| 發明(設計)人: | 許雯;孟朝暉 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06V10/70 | 分類號: | G06V10/70;G06N3/04;G06N3/08 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 羅運紅 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 確定 目標 尺寸 感受 大小 方法 | ||
1.一種自適應確定目標尺寸和感受野大小的方法,其特征在于,該方法包括如下步驟:
Step1:對原始分辨率448*256的圖片進行ResNet-50網絡卷積操作提取特征圖featuremaps,將卷積中的乘法換成加法操作,具體操作如下:
其中,Y(m,n,t)表示輸出坐標為(m,n)第t個通道的值,X(m+i,n+j,k)表示輸入坐標為(m+i,n+j)的第k個通道的值,cin為原始輸入圖片的通道,F(i,j,k,t)是過濾器,也為權值矩陣,過濾器大小為d*d,經過ResNet-50網絡卷積得到28*16*256的特征圖,用于區域候選框提取RPN和感興趣區域池化ROIPooling共享;
Step2:定義九個邊界框尺寸,候選框尺寸如下:
{[2,2],[2,4],[2,8],[4,2],[4,4],[4,8],[8,2],[8,4],[8,8]};
Step3:選取公共數據集ImageNet,包括訓練集和測試集,訓練集中的圖片由兩部分組成:一是未做任何標注的圖片,二是與圖片對應的圖片中真實目標框的坐標信息,選取ImageNet中部分訓練集做實驗數據,自行創建一個txt文本文件,存儲訓練集中真實目標框的坐標信息;
Step4:根據ResNet-50提取特征圖28*16*256標注的原始框,使用RPN提取其中的邊界框,下面根據與真實框的映射每個位置增加一個偏移量offset:
其中,p0表示輸出的像素坐標,坐標表示為:R={[-1,-1],[-1,0],[-1,1],[0,-1],[0,0],[0,1],[1,-1],[1,0],[1,1]},pn遍歷R中的每一個點,Δpn表示偏移量,w(pn)為過濾器每個位置的權重;
(1)把原來的卷積過程分成兩路,一路學習偏移量Δpn,得到2N*H*W的輸出,N=|R|表示R是前面公式表示的3*3矩陣,加絕對值表示獲取矩陣中點的個數,也就是9,2N是有x、y兩個方向的偏置,H、W分別為特征圖的高和寬,Δpn是一個預設的小數,采用雙線性插值法,獲取特征圖兩個相鄰斜對角左下(x1,y1)、右上(x2,y2)坐標之間的值,公式為:
其中,f(x1,y1)、f(x2,y1)、f(x1,y2)、f(x2,y2)分別為四個坐標對應的值,f(x,y)為插值后得到的值;
(2)使用3*3的滑動卷積窗口對特征圖做卷積操作,得到28*16個向量,每個向量256維;
(3)對整個特征圖做兩次1*1的卷積,產生兩塊layer,一塊是cls layer,維度為2*H*W,表示分類這塊區域是前景或背景;另一塊是reglayer,維度為4*H*W,表示預測出相對于原圖偏移的Δx,Δy,Δw,Δh位置;
Step5:對于cls layer分類,對前景和背景分別用正樣本1和負樣本0進行標簽,計算原始標注框與邊界框的交集面積I和并集面積U,得到一個面積比值IOU:
IOU=I/U
對這個比值進行過濾,篩選出與任意一個原始標注框的IOU重疊部分大于0.7的邊界框作為正樣本標簽,與任意一個原始標注框的IOU重疊部分小于0.3的邊界框作為負樣本標簽,分類學習的損失函數為:
其中,Lcls為回歸損失函數,pi為anchor預測為目標的概率,只有兩個值,pi=0表示預測目標失敗為背景框,pi=1表示預測目標成功為目標框;表示訓練集真實標注框:表示負標簽,表示正標簽;
Step6:對于reg layer回歸,通過不斷訓練收斂得到的特征圖中點的四個值:xr、yr、hr、wr,表示預測的邊界盒的四個坐標參數,與原始標注框坐標差值在預設范圍內,使其收斂趨于原始標注框的坐標,回歸損失函數為:
其中,Lreg為回歸損失函數,ti={xr,yr,wr,hr}表示預測的邊界盒的四個坐標參數,是目標標注框的四個坐標參數,R()為計算預測邊界盒參數收斂于目標標注框參數的函數;
Step7:通過step5和step6的分類和回歸操作之后,對由邊界框變成由RPN給出的候選框進行篩選;
Step8:提出了ROI pooling感興趣區域池化實現訓練和測試的加速,并提高了檢測的精度,感興趣區域池化層有兩個輸入:一是經過基礎網絡卷積和池化后的固定大小的特征圖;二是表示感興趣區域ROI的N*5的矩陣,其中N表示感興趣區域ROI的數目,第一列表示圖像索引,之后四列表示圖像感興趣區域的左上角和右下角坐標的信息,技術方案如下:
(1)根據輸入圖像,將ROI映射到特征圖對應位置;
(2)將映射后的區域劃分為相同大小的部分,部分數量與輸出的維度相同;
(3)對每個部分進行max pooling最大值池化操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110449343.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生物肥料施肥系統
- 下一篇:一種直接3D打印的復合功能材料及打印方法





