[發明專利]一種基于圖卷積神經網絡的弱監督目標檢測方法有效
| 申請號: | 202010364601.6 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111612051B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 顏成鋼;韓顧穩;史治國;孫垚棋;張繼勇;張勇東 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/82;G06N3/042;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖卷 神經網絡 監督 目標 檢測 方法 | ||
1.一種基于圖卷積神經網絡的弱監督目標檢測方法,其特征在于通過引入只檢測到物體一部分的偽標注框作為弱監督目標檢測網絡的監督條件,通過多實例網絡只檢測到物體的一部分而不是覆蓋全部物體;利用圖卷積神經網絡把檢測為物體框的鄰近且相交的候選框學習物體框的特征表示;因為和物體框相交的候選框也是物體的一部分,通過學習檢測為物體的框的特征表示來改變候選框的特征表示,鄰近的框學習檢測為物體的框的特征;候選框和檢測為物體框的特征表示就會相似,弱監督網絡測試的時候會把與檢測為物體框的鄰近候選框也分類為目標物體;從而檢測出的目標框覆蓋更大的面積和更全的物體,提高弱監督目標檢測的精度;
具體包括以下步驟:
步驟(1)訓練數據集的準備階段:
在目標檢測中用PASCAL?VOC?2007以及PASCAL?VOC?2012數據集作為訓練數據集,訓練數據集中包括20種物體類別,PASCAL?VOC2007一共有9963張圖片,其中有訓練數據集5011張圖片,測試數據集有4952張圖片;PASCAL?VOC?2012數據集一共有22531張圖片,其中訓練數據集11540張圖片,測試數據集有10991張圖片;其中除了圖片信息外還有每張圖片含有的物體類別信息;
步驟(2)獲取圖片的特征圖以及多實例檢測網絡模型:
首先,圖片經過卷積層得到卷積特征圖Ⅰ;
其次,選擇性搜索邊框圖片經過金字塔池化層得到每個選擇性搜索邊框圖片的卷積特征圖Ⅱ,將卷積特征圖Ⅱ連續經過兩層全連接層得到選擇性搜索邊框圖片的特征向量Ⅰ,特征向量Ⅰ分別經過全連接層Ⅰ和全連接層Ⅱ,全連接層Ⅰ與物體類別方向的softmax層Ⅰ連接,全連接層Ⅱ與選擇性搜索邊框圖片方向的softmax層Ⅱ連接;將softmax層Ⅰ和softmax層Ⅱ輸出的兩個特征向量進行數量積相乘得到特征向量Ⅱ,根據特征向量Ⅱ得到每個選擇性搜索邊框圖片在每個類別上的得分;
所述的圖片包含多個選擇性搜索邊框圖片;
步驟(3)圖卷積神經網絡,為了提高弱監督網絡模型的檢測精度,將步驟(2)獲取的選擇性搜索邊框圖片的特征向量Ⅱ輸入圖卷積神經網絡,圖卷積神經網絡包括第一個隱藏層、第一個ReLU激活函數層、第二個隱藏層、第二個ReLU激活函數層;
將特征向量Ⅰ作為第一個隱藏層的輸入,所述的特征向量Ⅰ是2000*4096大小的的特征矩陣;將第一個隱藏層輸出設置為256維,因此第一個隱藏層將4096維轉為256維,輸出特征向量Ⅲ,降低了網絡參數的個數,減少訓練復雜度;然后輸出的特征向量Ⅲ點乘鄰接矩陣A,再然后連接第一個ReLU激活函數層;第一個ReLU激活函數層的輸出作為第二個隱藏層的輸入,第二個隱藏層的輸出網絡參數為21維,因此第二個隱藏層將256維轉為21維,第二個隱藏層輸出21維的特征向量Ⅳ,第二個隱藏層輸出的特征向量Ⅳ再次點乘鄰接矩陣A,然后再連接第二個ReLU激活函數層,得到特征向量Ⅴ;特征向量Ⅴ是2000*21大小的的特征矩陣;
圖卷積神經網絡的輸出層連接一個softmax層,softmax層輸出特征向量Ⅵ,即每個選擇性搜索邊框圖片獲得特征向量Ⅵ中,屬于21個類別中每個類別的概率;最后連接損失函數;
步驟(4)設置弱監督目標檢測模型的損失函數,多實例檢測網絡模型的損失函數為分類損失函數,具體的為交叉熵損失函數,如公式(1)所示;
其中,φc是多實例網絡模型輸出的所有選擇性搜索邊框圖片的一個類別c上的權重之和;yc表示圖片存在或者不存在物體類別c,當存在時等于1,不存在時等于0;C表示物體種類的總數量,PASCAL?VOC有20類;加上背景這一類,C的取值為21,c表示物體的種類;
所述的權重之和是指在一個類別c上的所有選擇性搜索邊框圖片的概率之和,且該權重之和的數值在(0,1)之間;
圖片中,當c種類存在時,yc等于1;那么式(1)的加號右側為0,所以此時φc越大損失函數越小,則存在的分類的置信分數就會越大;
圖片中,當c種類不存在時,yc等于0,那么式(1)的加號左側為0,所以此時φc越小損失函數越小,則不存在的類別的置信分數就會越小;
圖卷積神經網絡分支結構的損失函數是一個分類損失函數,首先每個選擇性搜索邊框圖片的輸出特征向量Ⅵ再經過softmax層,分類出每個選擇性搜索邊框圖片的類別概率的置信分數分類損失函數如下所示:
其中,表示第r個選擇性搜索邊框圖片屬于c類別的置信分數,屬于(0,1)之間;yc表示圖像存在或者不存在類別c,當存在時yc等于1,不存在時yc等于0;C表示物體種類數目,PASCAL?VOC中有20個類;對圖片中所有的選擇性搜索邊框圖片對應的類進行聚類,經過聚類分為N束,sn表示第n個聚類束的置信分數,Mn表示第n個聚類束的物體框的個數;
步驟(5)用步驟(1)中的訓練數據集迭代訓練弱監督目標檢測模型,得到模型結果;由上述步驟可以得到弱監督目標檢測模型的訓練結果,通過迭代訓練,訓練20個epoch,每個epoch迭代一萬張圖片,每個epoch存儲一個訓練的模型;
步驟(6)測試弱監督目標檢測模型結果,通過兩個重要的指標判斷目標定位精度:平均正確率mAP和定位正確率CorLoc;測試結果表明平均正確率mAP和定位正確率CorLoc比現有PCL弱監督算法精確度提高5%mAP。
2.根據權利要求1所述的一種基于圖卷積神經網絡的弱監督目標檢測方法,其特征在于所述的鄰接矩陣A的獲取如下:
計算n行和m列的選擇性搜索邊框圖片之間的IOU,當IOU大于0.1時鄰接矩陣A的n行m列的值為1,當IOU小于0.1時,鄰接矩陣A的n行m列的值為0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010364601.6/1.html,轉載請聲明來源鉆瓜專利網。





