[發明專利]一種基于可變形卷積神經網絡的紅外圖像物體識別方法在審
| 申請號: | 201810316553.6 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108564025A | 公開(公告)日: | 2018-09-21 |
| 發明(設計)人: | 肖立軍;廖志偉;鄒國惠;裴星宇;萬新宇;李晨熙;韓玉龍;吳偉力;覃佳奎;姜媛 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司珠海供電局 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 卷積神經網絡 可變形 池化 紅外圖像 物體識別 采樣 目標檢測和識別 非線性變形 反向傳播 幾何變換 幾何形變 空間形變 目標函數 圖像識別 興趣區域 測試集 分類器 卷積核 訓練集 形變 構建 建模 卷積 學習 架構 視覺 引入 網絡 成功 | ||
本發明公開了一種基于可變形卷積神經網絡的紅外圖像物體識別方法,包括構建訓練集與測試集,搭建卷積神經網絡架構,在最后一層加上softmax分類器,設置目標函數,采用線性或非線性變形的卷積核進行采樣并在池化層采用目前業界最好的基于規則塊采樣的興趣區域(region of interests,ROI)池化方法進行池化操作;按經驗設置學習率參數,能很容易進行標準反向傳播端到端的訓練,從而得到可變形卷積網絡。經實驗證明,本發明在卷積神經網絡中引入了學習空間幾何形變的能力,更好地解決了具有空間形變的圖像識別任務。提高了卷積神經網絡的幾何變換建模的能力,在目標檢測和識別這些視覺任務上的有效性,成功學習到空間上密集的幾何形變。
技術領域
本發明涉及人機交互、計算機視覺領域及物體識別領域,更具體地,涉及一種基于可變形卷積神經網絡的紅外圖像物體識別方法。
背景技術
體識別是計算機視覺中一個十分重要的研究領域,包含人臉識別、手寫體數字識別、手勢識別以及物體識別等,可以廣泛地應用于人機交互、圖像分類以及圖像檢索等領域。衡量一個物體識別系統好壞的兩個主要指標為:識別率核識別速度。一般情況而言,識別率越高意味著識別速度相對較慢,而識別速度越快意味著識別率相對較低。因此,如何權衡而這的利弊一直是物體識別領域一個不可回避的問題。
物體識別系統主要包含特征提取、分類器判別等兩個方面。近年來,卷積神經網絡算法的發展極大地提高了物體識別技術的正確率,大部分已存在的卷積神經網絡的深度結構改進方法大都趨向于調優網絡的寬度與深度、改進激勵函數、設計多樣的卷積操作等等。2015年Simonyan和Zisserman提出VGG卷積神經網絡,他們通過研究卷積神經網絡的深度與大尺度圖片識別精度的關系,提出了一個更深的卷積神經網絡架構。通過調優網絡的寬度與深度,達到了最當時最好的性能。2014年Min等人提出了一種深度網絡結構叫做NIN卷積神經網絡。在該網絡結構中,作者引入了1*1的卷積操作,通過級聯兩層這樣的卷積層,實現了多層感知器的功能,在拉深網絡深度,調優網絡寬度的同時,實現了當時最優的分類性能。
基于卷積神經網絡的物體識別算法中,特征提取占據了物體識別的大部時間,特征提取的精確度也決定著算法的性能。然而上述方法的特征提取的精確度依然存在不可忽視的局限性。這些局限來自于卷積網絡的基本構成單元,即卷積操作。該操作在輸入圖像的每個位置進行基于規則格點位置的采樣,然后對于采樣到的圖像值做卷積并作為該位置的輸出。為了削弱這個限制,本專利對卷積核中每個采樣點的位置都增加了一個偏移的變量。通過這些變量,卷積核就可以在當前位置附近隨意的采樣,而不再局限于之前的規則格點。本發明擴展后的卷積操作稱為可變形卷積。
發明內容
本發明的目的是解決上述一個或多個缺陷,提出一種基于可變形卷積神經網絡的紅外圖像物體識別方法。
為實現以上發明目的,采用的技術方案是:
一種基于可變形卷積神經網絡的紅外圖像物體識別方法,包括以下步驟:
S1:收集數據庫樣本并設定訓練集與測試集,其中數據庫樣本采用COCO、PASCALVOC并設定類別和每一個類別在分類器中的編碼,構建訓練集;
S2:搭建卷積神經網絡架構,通過交迭若干個卷積層和池化層設置卷積神經網絡的深度與寬度架構;
S3:在卷積層采用可變形卷積核進行采樣,通過加入一個額外的卷積層來學習offset偏移量,共享輸入特征圖,然后把輸入特征圖和訓練得到的offset偏移量共同作為可變形卷積層的輸入層,此時可變形卷積層采樣點發生偏移,再進行卷積;
S4:在池化層采用可變形興趣區域進行池化操作,其中ROI被分為n*n個bin,被輸入到一個額外的全連接層學習offset,然后通過一個可變形興趣區域池化層使每個bin發生偏移;
S5:在卷積神經網絡的最后一層加上softmax分類器并設置目標函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司珠海供電局,未經廣東電網有限責任公司;廣東電網有限責任公司珠海供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810316553.6/2.html,轉載請聲明來源鉆瓜專利網。





