[發明專利]圖片中目標物的定位方法及裝置有效
| 申請號: | 201611051830.2 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106778773B | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 陳志軍 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 陳蕾 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖片 目標 定位 方法 裝置 | ||
1.一種圖片中目標物的定位方法,其特征在于,應用于電子設備,所述方法包括:
根據已訓練的全卷積神經網絡的輸入維度以及原始圖片的分辨率,對所述原始圖片進行縮放處理,得到縮放后的圖片;
將所述縮放后的圖片輸入到所述全卷積神經網絡中,通過所述全卷積神經網絡的前設定個數的卷積層進行卷積處理,得到經過該前設定個數的卷積層卷積處理的第一圖像特征;
將所述第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征;
基于所述全卷積神經網絡中并且位于所述前設定個數的卷積層之后的卷積層,對所述至少一個第二圖像特征分別進行卷積處理,得到具有不同分辨率的至少一個熱度圖,所述至少一個熱度圖上的每一個坐標點對應的值為目標物在所述原始圖片上的概率值;
基于所述至少一個熱度圖,確定所述目標物在所述原始圖片中的位置區域。
2.根據權利要求1所述的方法,其特征在于,所述基于所述至少一個熱度圖確定目標物在所述原始圖片中的位置區域,包括:
在所述至少一個熱度圖的每一個熱度圖上,確定概率值大于預設閾值的多個坐標點;
確定所述多個坐標點在所述原始圖片中各自對應的像素點;
基于所述多個坐標點在所述原始圖片中各自對應的像素點,確定所述目標物在所述原始圖片中對應的候選框集合,得到所述至少一個熱度圖各自對應的候選框集合;
基于所述至少一個熱度圖各自對應的候選框集合,確定所述目標物在所述原始圖片中的位置區域。
3.根據權利要求2所述的方法,其特征在于,所述基于所述至少一個熱度圖各自對應的候選框集合,確定所述目標物在所述原始圖片中的位置區域,包括:
基于非極大值抑制算法,對所述至少一個熱度圖各自對應的候選框集合進行合并,得到所述至少一個熱度圖各自對應的一個候選框;
基于所述非極大值抑制算法,對所述至少一個熱度圖各自對應的候選框進行合并,將合并后的候選框確定為所述目標物在所述原始圖片中的位置區域。
4.根據權利要求1所述的方法,其特征在于,所述將所述第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征,包括:
通過連接在所述前設定個數的卷積層之后的空間金字塔池化網絡將所述第一圖像特征池化為具有不同分辨率的至少一個第二圖像特征;或者,
根據兩個以上的不同預設縮放比例對所述第一圖像特征進行下采樣,得到具有不同分辨率的至少一個第二圖像特征。
5.一種圖片中目標物的定位裝置,其特征在于,應用于電子設備,所述裝置包括:
縮放處理模塊,被配置為根據已訓練的全卷積神經網絡的輸入維度以及原始圖片的分辨率,對所述原始圖片進行縮放處理,得到縮放后的圖片;
第一處理模塊,被配置為將所述縮放處理模塊縮放后的圖片輸入到所述全卷積神經網絡中,通過所述全卷積神經網絡的前設定個數的卷積層進行卷積處理,得到經過該前設定個數的卷積層卷積處理的第一圖像特征;
第二處理模塊,被配置為將所述第一處理模塊得到的所述第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征;
第三處理模塊,被配置為基于所述全卷積神經網絡中并且位于所述前設定個數的卷積層之后的卷積層,對所述第二處理模塊得到的所述至少一個第二圖像特征分別進行卷積處理,得到具有不同分辨率的至少一個熱度圖,所述至少一個熱度圖上的每一個坐標點對應的值為目標物在所述原始圖片上的概率值;
確定模塊,被配置為基于所述第三處理模塊得到的所述至少一個熱度圖,確定所述目標物在所述原始圖片中的位置區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611051830.2/1.html,轉載請聲明來源鉆瓜專利網。





