[發(fā)明專利]圖片中目標物的定位方法及裝置有效
| 申請?zhí)枺?/td> | 201611051830.2 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106778773B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計)人: | 陳志軍 | 申請(專利權(quán))人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 陳蕾 |
| 地址: | 100085 北京市海淀區(qū)清河*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 圖片 目標 定位 方法 裝置 | ||
本公開是關(guān)于一種圖片中目標物的定位方法及裝置。方法包括:根據(jù)已訓(xùn)練的FCN的輸入維度以及原始圖片的分辨率,對原始圖片進行縮放處理,得到縮放后的圖片;將縮放后的圖片輸入到FCN中,通過FCN的前設(shè)定個數(shù)的卷積層進行卷積處理,得到經(jīng)過該前設(shè)定個數(shù)的卷積層卷積處理的第一圖像特征;將第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征;基于FCN中并且位于前設(shè)定個數(shù)的卷積層之后的卷積層,對至少一個第二圖像特征分別進行卷積處理,得到具有不同分辨率的至少一個熱度圖;基于至少一個熱度圖,確定目標物在原始圖片中的位置區(qū)域。本公開技術(shù)方案可以對目標物實現(xiàn)多尺度的檢測,大大提高目標物的識別效率。
技術(shù)領(lǐng)域
本公開涉及圖像處理技術(shù)領(lǐng)域,尤其涉及一種圖片中目標物的定位方法及裝置。
背景技術(shù)
當通過已訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)(Full Convolutional Neural Networks,簡稱為FCN)模型對圖片中的人臉進行檢測時,通過該FCN模型得到一熱度圖(heat map),通過在熱度圖中識別目標物(例如,人臉)所在區(qū)域的概率。受限于相機的鏡頭與目標物之間的空間距離,會導(dǎo)致目標物在圖片中所占的尺寸是不固定的,因此相關(guān)技術(shù)在對目標物進行識別檢測時需要根據(jù)具體情形對圖片縮放多次,從而實現(xiàn)多尺度的檢測,以提高識別準確率。由于需要對圖片進行多次縮放,會降低目標物的識別效率。
發(fā)明內(nèi)容
為克服相關(guān)技術(shù)中存在的問題,本公開實施例提供一種圖片中目標物的定位方法及裝置,用以提高識別目標物的效率。
根據(jù)本公開實施例的第一方面,提供一種圖片中目標物的定位方法,包括:
根據(jù)已訓(xùn)練的全卷積神經(jīng)網(wǎng)絡(luò)的輸入維度以及原始圖片的分辨率,對所述原始圖片進行縮放處理,得到縮放后的圖片;
將所述縮放后的圖片輸入到所述全卷積神經(jīng)網(wǎng)絡(luò)中,通過所述全卷積神經(jīng)網(wǎng)絡(luò)的前設(shè)定個數(shù)的卷積層進行卷積處理,得到經(jīng)過該前設(shè)定個數(shù)的卷積層卷積處理的第一圖像特征;
將所述第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征;
基于所述全卷積神經(jīng)網(wǎng)絡(luò)中并且位于所述前設(shè)定個數(shù)的卷積層之后的卷積層,對所述至少一個第二圖像特征分別進行卷積處理,得到具有不同分辨率的至少一個熱度圖,所述至少一個熱度圖上的每一個坐標點對應(yīng)的值為目標物在所述原始圖片上的概率值;
基于所述至少一個熱度圖,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述基于所述至少一個熱度圖確定目標物在所述原始圖片中的位置區(qū)域,可包括:
在所述至少一個熱度圖的每一個熱度圖上,確定概率值大于預(yù)設(shè)閾值的多個坐標點;
確定所述多個坐標點在所述原始圖片中各自對應(yīng)的像素點;
基于所述多個坐標點在所述原始圖片中各自對應(yīng)的像素點,確定所述目標物在所述原始圖片中對應(yīng)的候選框集合,得到所述至少一個熱度圖各自對應(yīng)的候選框集合;
基于所述至少一個熱度圖各自對應(yīng)的候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述基于所述至少一個熱度圖各自對應(yīng)的候選框集合,確定所述目標物在所述原始圖片中的位置區(qū)域,可包括:
基于非極大值抑制算法,對所述至少一個熱度圖各自對應(yīng)的候選框集合進行合并,得到所述至少一個熱度圖各自對應(yīng)的一個候選框;
基于所述非極大值抑制算法,對所述至少一個熱度圖各自對應(yīng)的候選框進行合并,將合并后的候選框確定為所述目標物在所述原始圖片中的位置區(qū)域。
在一實施例中,所述將所述第一圖像特征處理成具有不同分辨率的至少一個第二圖像特征,可包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米移動軟件有限公司,未經(jīng)北京小米移動軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611051830.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





