[發明專利]用包括跟蹤網的卷積神經網絡獲取與圖像中的對象對應的邊界框的方法和使用其的計算裝置在審
| 申請號: | 201811191036.7 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109670523A | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 金镕重;南云鉉;夫碩焄;成明哲;呂東勛;柳宇宙;張泰雄;鄭景中;諸泓模;趙浩辰 | 申請(專利權)人: | 斯特拉德視覺公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06T7/20;G06N3/04 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 李琳;陳英俊 |
| 地址: | 韓國慶*** | 國省代碼: | 韓國;KR |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 邊界框 池化 特征圖 跟蹤 漂移 距離進行比較 卷積神經網絡 跟蹤算法 回歸運算 計算裝置 目標區域 起始區域 區域生成 參考 運算 應用 圖像 | ||
提供了一種獲取與對象相對應的邊界框的方法。該方法包括以下步驟:(a)獲取建議框;(b)通過參考(i)將參考邊界框與建議框之間的距離進行比較的結果和/或(ii)將表示建議框是否包括對象的分數進行比較的結果,在建議框中選擇特定建議框,然后設置特定建議框作為跟蹤框的起始區域;(c)通過使用均值漂移跟蹤算法確定當前幀的特定區域作為跟蹤框的目標區域;以及(d)允許池化層通過將池化運算應用于對應于特定區域的區域生成池化特征圖,然后允許FC層通過對池化特征圖應用回歸運算來獲取邊界框。
技術領域
本發明涉及一種利用包括跟蹤網的卷積神經網絡(CNN)獲取與測試圖像中的對象相對應的邊界框的方法和使用該方法的測試裝置;更具體地,涉及通過使用包括跟蹤網的CNN獲取與測試圖像中的至少一個對象相對應的至少一個邊界框的方法,以及執行該方法的測試裝置,所述方法包括以下步驟:(a)如果通過對作為當前幀的測試圖像應用卷積運算而生成特征圖,然后輸出通過由區域建議網絡(RPN)對特征圖應用特定操作而得到的關于多個建議框的信息,則測試裝置獲取或支持另一裝置獲取多個建議框;(b)測試裝置通過參考以下至少一項在多個建議框中選擇或支持另一裝置在多個建議框中選擇至少一個特定建議框:(i)將前一幀中的對象的參考邊界框與多個建議框的每一個之間的每個距離進行比較的結果以及(ii)將作為指示建議框的每一個是否包括對象的概率值的每個分數進行比較的結果,然后設置或支持另一裝置設置特定建議框作為跟蹤框的起始區域,其中,起始區域用于均值漂移跟蹤算法;(c)通過使用均值漂移跟蹤算法,測試裝置確定或支持另一裝置確定當前幀的特定區域作為跟蹤框的目標區域,該特定區域具有關于和與前一幀中的對象的像素數據對應的概率類似的概率的信息;以及(d)測試裝置允許池化層通過對特征圖中對應于特定區域的區域應用池化運算生成池化特征圖,然后允許FC層通過對池化特征圖應用回歸運算來獲取邊界框。
背景技術
在機器學習中,卷積神經網絡(CNN或ConvNet)是一類深度前饋人工神經網絡,已成功應用于分析視覺意象。
圖1是示意性地示出根據現有技術的傳統CNN的學習過程的圖。
具體地,圖1示出了通過將預測邊界框與地面真值(GT)邊界框進行比較來獲取損失的過程。這里,損失代表預測邊界框和GT邊界框之間的差異,并表示為dxc、dyc、dw、dh,如圖1所示。
首先,如圖1所示,學習裝置可以獲取RGB圖像作為輸入以被饋送到包括在卷積塊中的多個卷積層(即卷積濾波器)。當RGB圖像通過多個卷積層時,RGB圖像的大小(例如,寬度和高度)變小,而通道數增加。
如圖1所示,學習裝置允許區域建議網絡(RPN)從由卷積塊輸出的最終特征圖生成建議框,并允許池化層(例如ROI池化層)通過對特征圖上與建議框對應的區域的像素數據應用最大池化運算(或平均池化運算)將特征圖上與建議框對應的區域的大小調整到預定大小(例如,大小為2×2)。因此,獲取了池化特征圖。作為參考,池化特征圖也可以稱為特征向量。這里,最大池化運算是這樣的運算:通過該運算,從特征圖上的主題區域劃分的子區域的每一個中的每個最大值被選擇作為主題區域的代表值的每一個,如圖1的右下方所示。
接下來,可以允許池化特征圖被饋送到完全連接(FC)層。
然后,學習裝置可以允許FC層識別RGB圖像中的對象的類別。另外,可以通過FC層獲取RGB圖像中的預測邊界框,并且還可以通過在預測邊界框和地面真值(GT)邊界框之間進行比較來獲取損失。這里,GT邊界框表示精確地圍繞RGB圖像中的對象的邊界框,其通常可以由人為準備。
最后,圖1中的學習裝置可以通過在反向傳播過程期間使用損失來調整包括在FC層、RPN或多個卷積層中的參數中的至少一個。
此后,具有包括調整后的參數的CNN的測試裝置(未示出)可以稍后獲取圍繞測試圖像中的對象的邊界框。然而,即使測試裝置具有包括調整后的參數的CNN,也很難獲得精確地圍繞測試圖像中的對象的邊界框。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于斯特拉德視覺公司,未經斯特拉德視覺公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811191036.7/2.html,轉載請聲明來源鉆瓜專利網。





