[發明專利]一種基于改進端到端神經網絡的室內物體目標檢測方法在審
| 申請號: | 202010039334.5 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111275082A | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 陳略峰;吳敏;曹衛華;張平平 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 易濱 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 端到端 神經網絡 室內 物體 目標 檢測 方法 | ||
1.一種基于改進端到端神經網絡的室內物體目標檢測方法,其特征在于,包括以下步驟:
S1、構建端到端卷積神經網絡,所述端到端卷積神經網絡包括若干個用于減少圖像像素的池化層,若干個用于提取圖像特征的卷積層,1個全連接層和1個分類輸出層;
S2、獲取目標圖像數據集,基于所述目標圖像數據集構建訓練集,對訓練集中的每張圖像進行標注框的標注,確定訓練集圖像中每一個預定義目標的類別和位置信息;
S3、將已利用標注框標注的訓練集輸入到步驟S1構建的卷積神經網絡中,進行網絡初始化;其中,輸入數據先經過1個池化層進行圖像像素調整后,再輸入到與池化層連接的卷積層,進行圖像特征提取,最后經過全連接層做加權和處理,以及分類輸出層進行結果輸出,實現對訓練集圖像的預處理;
S4、將預處理后的訓練集中的每張圖像分割成M×N的網絡單元格;利用分割得到的M×N個網絡單元格,針對每張圖像進行初始候選框的選??;其中,每個網絡單元格隨機生成B個初始候選框,一共生成M×N×B個初始候選框;參數M、N、B均為正整數且大于等于1;
S5、針對分割得到的每個網絡單元格,進行預定義目標的檢測,得到目標類別為M×N×B的類別置信度;其中,根據得到的目標類別類別置信度設置卷積神經網絡的輸出,確定最終的目標預測框;
S6、將已利用標注框標注的訓練集作為卷積神經網絡的輸入,將步驟S5得到的目標預測框作為卷積神經網絡的輸出,訓練卷積神經網絡,得到最終的用于室內物體目標檢測的卷積神經網絡;
S7、將待進行室內物體目標檢測的圖像輸入到基于步驟S6訓練得到的卷積神經網絡中,得到目標檢測結果。
2.根據權利要求1所述的室內物體目標檢測方法,其特征在于,步驟S2中,所述目標圖像數據集包括情感機器人室內交互環境的圖像數據集和VOC2007數據集,在圖像標注軟件對訓練集中的每張圖像進行標注框的標注,獲取到訓練集圖像中每一個目標的類別和位置信息。
3.根據權利要求2所述的室內物體目標檢測方法,其特征在于,根據情感機器人交互場景和對象,將預定義目標設置為圖像中包括的行人、有人坐的椅子、桌子、電腦顯示器。
4.根據權利要求1所述的室內物體目標檢測方法,其特征在于,步驟S4中,將預處理后的訓練集圖像分割成14×14的網絡單元格;利用網絡單元格進行初始候選框的選取,其中,在每個網絡單元格中隨機生成2個初始候選框,一共生成14×14×2個初始候選框。
5.根據權利要求1所述的室內物體目標檢測方法,其特征在于,步驟S5中,針對目標預測框進行目標檢測,根據置信度Conf(Object)確定預測每個目標預測框中是否存在待判別目標,將不存在目標物的目標預測框置信度設置為0;其中,置信度的數學公式定義為:
Pr(Object)用于判斷是否有目標物落入目標預測框對應的網絡單元格中;若網絡單元格中存在目標物,則將目標置信度設置為否則,認定目標預測框中沒有目標物,將置信度設置為Conf(Object)=0;表示預測框與實際框的交集面積與并集面積之比。
6.根據權利要求1所述的室內物體目標檢測方法,其特征在于,步驟S6中,訓練卷積神經網絡分為以下幾項步驟:
S51、接收待檢測圖像,根據預設的要求調整所述待檢測圖像的尺寸大小,生成第一檢測圖像;將所述第一檢測圖像輸入到卷積神經網絡中進行匹配識別,生成初始候選框、分類識別信息以及分類識別信息對應的分類概率值;
S52、基于分類概率值確定每個初始候選框是否識別出目標物,將成功識別出目標物的初始候選框作為目標預測框;基于得到的若干個目標預測框進行目標物體的預測判斷,設預測到目標物體的條件概率為Pr(Person|Object),將目標預測框中包含預測到的目標物體置信度Conf定義為:
其中,Pr(Object)用于判斷是否有目標物落入目標預測框對應的網絡單元格中;表示預測框與實際框的交集面積與并集面積之比;
S53、針對每個目標預測框,預測出其中包含目標物體的概率以及邊界框的位置,每個目標預測框輸出的預測值為:
[X,Y,W,H,Conf(Object),Conf];
其中,X、Y為預測框中心相對于網絡單元格邊界的偏移,W、H為預測框寬高相對于整幅圖像之比;對于輸入的每張圖像數據,最終網絡輸出為向量M×N×B×[X,Y,W,H,Conf(Object),Conf]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010039334.5/1.html,轉載請聲明來源鉆瓜專利網。





