[發(fā)明專利]目標對象的檢測方法及裝置在審
| 申請?zhí)枺?/td> | 201710986009.8 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN107748867A | 公開(公告)日: | 2018-03-02 |
| 發(fā)明(設(shè)計)人: | 陳志軍 | 申請(專利權(quán))人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04 |
| 代理公司: | 北京格羅巴爾知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11406 | 代理人: | 孫德崇 |
| 地址: | 100085 北京市海淀區(qū)清河*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標 對象 檢測 方法 裝置 | ||
1.一種目標對象的檢測方法,其特征在于,包括:
識別步驟,將待處理圖像輸入級聯(lián)的全卷積網(wǎng)絡(luò)FCN模型的第n層,識別得到所檢測的目標對象在所述第n層對應(yīng)的概率圖,所述級聯(lián)的FCN模型包括L層FCN,L為大于或等于2的整數(shù),所述n為從1到L的整數(shù);
包圍盒確定步驟,根據(jù)所述第n層對應(yīng)的概率圖上各概率值,得到各包圍盒,并采用非極大值抑制NMS將各包圍盒進行合并;
原圖區(qū)域確定步驟,將合并后的包圍盒在所述待處理圖像上得到對應(yīng)的原圖區(qū)域;將所得到的所述原圖區(qū)域輸入所述級聯(lián)的FCN模型的第n+1層,迭代地執(zhí)行所述識別步驟、所述包圍盒確定步驟和所述原圖區(qū)域確定步驟;直至在所述級聯(lián)的FCN模型的第L層,輸出所述目標對象在所述待處理圖像的位置。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
針對所述目標對象進行訓(xùn)練,得到級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)CNN模型,所述級聯(lián)的CNN模型包括多層CNN;
將所述級聯(lián)的CNN模型轉(zhuǎn)化為所述級聯(lián)的FCN模型,所述級聯(lián)的FCN模型包括多層FCN。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,還包括:
將所述待處理圖像按照不同比例縮放,得到多個縮放后的圖像;
將所述多個縮放后的圖像輸入所述級聯(lián)的FCN模型,迭代地執(zhí)行識別步驟、包圍盒確定步驟和原圖區(qū)域確定步驟,得到所述目標對象在所述多個縮放后的圖像中對應(yīng)的位置;
采用NMS對識別出的所述多個縮放后的圖像中的位置進行聚合,得到所述目標對象在所述待處理圖像的位置。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將所述多個縮放后的圖像輸入所述級聯(lián)的FCN模型,迭代地執(zhí)行識別步驟、包圍盒確定步驟和原圖區(qū)域確定步驟,得到所述目標對象在所述多個縮放后的圖像中對應(yīng)的位置,包括:
所述識別步驟包括:將尺度為M*N的圖像輸入所述級聯(lián)的FCN模型的第n層,識別得到所述第n層對應(yīng)的X*Y的概率圖,所述尺度為M*N的圖像由所述待處理圖像縮放得到的圖像,所述X等于M*St,Y等于N*St,所述St為步長,所述n為從1到L的整數(shù);
所述包圍盒確定步驟包括:根據(jù)第n層對應(yīng)的概率圖上的概率值大于設(shè)定閾值的點,得到S個包圍盒B,并采用NMS將S個包圍盒B進行合并;
所述原圖區(qū)域確定步驟包括:將合并后的S個包圍盒在所述尺度為M*M的圖像上得到對應(yīng)的S個原圖區(qū)域B1;將所得到的S個原圖區(qū)域B1輸入所述級聯(lián)的FCN模型的第n+1層,迭代地執(zhí)行所述識別步驟、所述包圍盒確定步驟和所述原圖區(qū)域確定步驟,直至在所述級聯(lián)的FCN模型的第L層,輸出所述目標對象在所述尺度為M*M的圖像中對應(yīng)的概率圖和位置。
5.一種目標對象的檢測裝置,其特征在于,包括:
識別模塊,用于將待處理圖像輸入級聯(lián)的全卷積網(wǎng)絡(luò)FCN模型的第n層,識別得到所檢測的目標對象在所述第n層對應(yīng)的概率圖,所述級聯(lián)的FCN模型包括L層FCN,L為大于或等于2的整數(shù),所述n為從1到L的整數(shù);
包圍盒確定模塊,用于根據(jù)所述第n層對應(yīng)的概率圖上各概率值,得到各包圍盒,并采用非極大值抑制NMS將各包圍盒進行合并;
原圖區(qū)域確定模塊,用于將合并后的包圍盒在所述待處理圖像上得到對應(yīng)的原圖區(qū)域;
迭代模塊,用于將所得到的所述原圖區(qū)域輸入所述級聯(lián)的FCN模型的第n+1層,控制所述識別模塊、所述包圍盒確定模塊和所述原圖區(qū)域確定模塊迭代地執(zhí)行動作,直至在所述級聯(lián)的FCN模型的第L層,輸出所述目標對象在所述待處理圖像的位置。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,還包括:
訓(xùn)練模塊,用于針對所述目標對象進行訓(xùn)練,得到級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)CNN模型,所述級聯(lián)的CNN模型包括多層CNN;
轉(zhuǎn)化模塊,用于將所述級聯(lián)的CNN模型轉(zhuǎn)化為所述級聯(lián)的FCN模型,所述級聯(lián)的FCN模型包括多層FCN。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京小米移動軟件有限公司,未經(jīng)北京小米移動軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710986009.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





