[發明專利]基于卷積神經網絡的噪聲圖像目標邊界框確定方法有效
| 申請號: | 201910143462.1 | 申請日: | 2019-02-26 |
| 公開(公告)號: | CN109902806B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 陶曉明;王雋;段一平;陸建華 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06K9/62 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 噪聲 圖像 目標 邊界 確定 方法 | ||
1.基于卷積神經網絡的噪聲圖像目標邊界框確定方法,其特征在于:將目標定位問題重新定義為一個概率問題,根據目標物體和背景的特征差異,來預測目標物體存在于每個位置的概率;首先,對噪聲圖像生成一系列候選邊界框,然后將每個候選邊界框劃分成等寬的若干行與若干列,每一行或每一列稱為一個單元;所謂in-out概率,即每個單元存在物體的可能性大小;通過訓練卷積神經網絡,對候選邊界框的每個橫向和豎向單元學習預測in-out概率,由此確定出目標邊界框的上、下、左、右四個邊界;
本方法的實現過程分為以下4步:
(1)搭建用于訓練和測試的卷積神經網絡:網絡包含三個模塊,即基本模塊、顯著性預測模塊和目標定位模塊;基本模塊用于得到整幅圖像的特征圖,顯著性預測模塊用于預測候選邊界框包含物體的可能性的大小,目標定位模塊用于預測候選邊界框的in-out概率;
(2)準備訓練和測試數據:訓練和測試數據包括圖像以及圖像中包含的目標物體的真實邊界框;將圖像縮放為合適大小,并為每張圖像增加隨機噪聲,用于模擬現實場景;以滑動窗的方式為每張訓練圖像生成一系列矩形框,通過計算矩形框與真實邊界框的重疊率,將矩形框劃分為候選邊界框和背景矩形框,分別用顯著性分數1和0加以區分,用于訓練神經網絡學習物體和背景矩形框的整體特征差異;以一定的倍數,擴大候選邊界框在圖像中的區域范圍,以防止候選邊界框包含不完整的物體;為每個擴大區域后的候選邊界框定義in-out概率,用于訓練神經網絡學習物體和背景矩形框的局部特征差異;
(3)訓練網絡:開始訓練網絡之前,首先使用均勻分布的隨機變量對網絡參數進行初始化;接下來,對以下過程進行反復循環迭代,直到達到訓練結束的指標:隨機選取一張訓練圖像,經過預處理后,得到噪聲圖像、候選邊界框和背景矩形框、預設的顯著性分數,和候選邊界框的in-out概率;將噪聲圖像輸入基本模塊中,得到整幅圖像的特征圖;將候選邊界框、背景矩形框、預設的顯著性分數和整幅圖像的特征圖輸入到顯著性預測模塊中,輸出損失值,使用梯度下降和反向傳播算法,對顯著性預測模塊的網絡參數進行更新;將候選邊界框、候選邊界框的in-out概率和整幅圖像的特征圖輸入到目標定位模塊,輸出損失值,用梯度下降和反向傳播算法對目標定位模塊的網絡參數進行更新;將顯著性預測模塊和目標定位模塊各自反向傳播到第一層的損失值相加,作為基本模塊的損失值,用梯度下降和反向傳播算法對基本模塊的網絡參數進行更新;
(4)測試網絡:
每當對所有訓練圖像訓練完成一輪后,將訓練網絡的相應參數拷貝到測試網絡中進行測試;隨機選取一張測試圖像,經過預處理后,得到噪聲圖像和一系列矩形框;將噪聲圖像輸入基本模塊中,得到整幅圖像的特征圖;將矩形框和整幅圖像的特征圖輸入到顯著性預測模塊中,輸出預測的顯著性分數;根據預先設定的閾值,去除預測的顯著性分數低于閾值的矩形框,保留預測的顯著性分數高于閾值的矩形框;以一定的倍數,擴大矩形框在圖像中的區域范圍,作為候選邊界框,并與整幅圖像的特征圖一起輸入到目標定位模塊中,輸出預測的in-out概率;解碼預測的in-out概率,得到候選邊界框上、下、左、右的四個邊界,從而得到測試圖像中目標物體的邊界框的預測位置,并根據標注文件給出的目標物體真實邊界框的位置計算該張測試圖像的召回率;對所有測試圖像計算一遍召回率,最后計算所有測試圖像召回率的平均值,若該平均值達到預設的指標,則結束訓練,否則繼續對訓練圖像進行訓練;
準備訓練和測試數據包括如下步驟,
步驟(2.1),選取訓練和測試圖像:選取一個用于目標檢測或定位的圖像數據集,已劃分好訓練集和測試集,若沒有,則以7:3的比例將圖像劃分為訓練集和測試集;用于目標檢測或定位的圖像數據集中的每張圖像都包含有一個標注文件,記錄了該圖像中所有目標物體的位置信息(a1,z1,a2,z2),其中(a1,z1)和(a2,z2)分別表示目標物體外接邊界框的左上頂點和右下頂點的坐標,圖像中點的坐標定義,圖像左上頂點坐標設為(0,0),水平方向為x軸,豎直方向為y軸;
步驟(2.2),圖像預處理:將每張圖像縮放為預設的大小,根據圖像的縮放值,對該圖像的標注文件中給出的目標物體邊界框的坐標位置進行相應的調整,調整后的邊界框作為真實邊界框,記作GT;對每張圖像施加隨機高斯噪聲Noise,高斯噪聲的均值μ和方差σ均在區間[0,1]內隨機取值,假設原圖像為I,則施加噪聲后的圖像為I′=I+Noise;
步驟(2.3),生成候選邊界框和背景矩形框,所謂候選邊界框,即可能存在物體的矩形框,背景矩形框,即沒有物體存在的矩形框,具體操作如下:
步驟(2.3.1),定義ε種寬高比、ρ種最短邊長度的種子矩形框,一共有ε×ρ種規格的種子矩形框;所謂種子矩形框,即預先設定好大小和形狀的矩形框,以滑動步長μ在圖像I′上從上到下、從左到右滑動每種規格的種子矩形框,記生成的所有矩形框為GB;
步驟(2.3.2),計算每張圖像中每個生成的矩形框GB和每個真實邊界框GT的對應坐標范圍內圖像的重疊率IoU:
對于每個生成的矩形框,若與一個真實邊界框的IoU=0.5,則選為候選邊界框,否則,選為背景矩形框;
步驟(2.4),定義顯著性分數,所謂顯著性分數,即矩形框中出現物體的概率,在閉區間[0,1]之間取值;顯著性分數越接近于1,則矩形框中越有可能出現物體,反之,越接近于0,則矩形框越有可能是背景區域;因此,將所有候選邊界框的顯著性分數預設為1,所有背景矩形框的顯著性分數預設為0;
步驟(2.5),擴大候選邊界框在圖像中的區域范圍,以免候選邊界框包含不完整物體:計算每個候選邊界框的中心坐標以及寬width=a1-a2和高height=z1-z2,將候選邊界框的寬、高分別放大γ倍,則放大后的候選邊界框的位置為,
步驟(2.6),定義in-out概率:將每個擴大的候選邊界框劃分為等寬的Γ列和Γ行,每一列或每一行稱為一個單元,為每個單元預設一個in-out概率Qu,u=1,...,Γ,表示該單元與真實邊界框有重疊的可能性:如果重疊率為0,則將Qu設為0,否則將Qu設為1,一個候選邊界框的所有單元的in-out概率組成Q,Q是一個2×Γ的矩陣,矩陣的第一行對應Γ個橫向單元的in-out概率,第二行對應Γ個豎向單元的in-out概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910143462.1/1.html,轉載請聲明來源鉆瓜專利網。





