[發明專利]一種基于深度卷積神經網絡模型-重生網絡的視覺識別方法在審
| 申請號: | 202011185864.7 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112257800A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 蔡志成;莊建軍;彭成磊 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 卷積 神經網絡 模型 重生 網絡 視覺 識別 方法 | ||
基于深度卷積神經網絡模型?重生網絡的視覺識別方法,采用“重生機制”的“重生模塊”搭建一種新型深度卷積神經網絡模型,引入的重生機制對被ReLU函數截斷死亡的神經元進行重生再造,“重生機制”的實現流程:在重生網絡中,引入并實現重生機制的模塊稱為重生模塊;首先,重生模塊的輸入x為上層卷積層得到的特征映射,先將x輸入傳統的ReLU函數,得到激活后的特征映射x1,這樣就篩選出取值為正的神經元,并截斷負值的神經元;同時,將輸入x取反,并行地將?x輸入ReLU函數,得到激活后的特征映射x2*,這樣就篩選出取值為負的神經元,并截斷正值的神經元;對取值為負的神經元進行篩選后,對它們進行逆卷積操作,然后與正值進行通道級聯,就是負神經元的重生過程。
技術領域
本發明涉及一種新型且具有高性能的深度卷積神經網絡模型,屬于人工智能,尤其是深度卷積神經網絡模型-重生網絡(RebornNet)視覺識別方法,深度學習和計算機視覺領域,可用于圖像識別、圖像分類等任務,也可作為物體檢測、語義分割、圖像生成、風格遷移等任務的基準模型。
背景技術
卷積神經網絡(Convolutional Neural Network,CNN)是一種前饋型的神經網絡,其在大型圖像處理方面有出色的表現。卷積操作實質:輸入圖像(input volume),在深度方向上由很多slice組成,對于其中一個slice,可以對應很多神經元,神經元的weight表現為卷積核的形式,即一個方形的濾波器(filter)(如3X3),這些神經元各自分別對應圖像中的某一個局部區域(local region),用于提取該區域的特征。如果該slice對應的神經元參數共享,那么相當于只有一個卷積核作用于所有的局部區域(類似于圖像濾波了)。一個局部區域可以稱為一個block,如果將所有的block拉成一個個列向量(因為神經元作用本來就定義為將輸入向量和參數向量進行內積操作,y=w0x0+w1x1+...+wnxn),則我們可以得到很多這些列向量組成的局部區域數據矩陣,再將神經元的weight拉成一個個行向量,這樣就得到一個參數矩陣(如果參數共享,那么該矩陣行數為slice的個數),然后將數據矩陣和參數矩陣進行點積操作,得到卷積后結果,其實就是將所有的filter和所有的局部區域分別進行點積操作,當然這個結果還需要重新reshape到期望的輸出尺寸。這個過程其實也解釋了為什么神經元的參數可以保存在一個個filter中,該網絡層為什么稱為卷積層。參數共享的卷積操作使得卷積神經網絡具有平移不變形的特征。對于淺層的卷積層學到較小的圖像特征(如邊緣、紋理、色度);深層的卷積層將學習到更為抽象的特征(如貓的耳朵形狀、眼睛紋理等)
CNN通過分層進行信息抽象,隨著網絡層數的增加,抽象層級也增加。更深的網絡層能學習到更復雜的表達。
另有區域卷積神經網絡(R-CNN),全稱是Region-CNN,是第一個成功將深度學習應用到目標檢測上的算法。R-CNN基于卷積神經網絡(CNN),線性回歸,和支持向量機(SVM)等算法,實現目標檢測技術。但是這個問題并沒有想象的那么簡單,首先物體的尺寸變化很大,物體擺放的角度不同,形態各異,而且可以出現在圖片的任何地方,有些物體還具有多個類別。R-CNN主要就是用了做目標檢測任務的。先簡單了解下目標檢測,通俗理解是對于給定圖片精確的找到物體所在的位置,將其用矩形邊框框出,并且標注物體的類別(一張圖像中含有一個或多個物體)。圖1中,輸入:image;輸出:類別標簽(Category label);位置(最小外接矩形/Bounding Box),模型構思:按分類問題對待可分為兩個模塊:
·模塊一:提取物體區域(Region proposal)
·模塊二:對區域進行分類識別(Classification)
主要難度是:在提取區域上需要面臨位置不同;需要檢測的對象大小不一,過小的對象由于特征較為模糊,不易被檢測出來;需要提取對象數量過多;對象擁擠或受到遮擋而造成漏檢;非極大值抑制將近鄰對象抑制等問題。在分類識別方面主要面對CNN分類計算量大,語義信息不夠豐富,分類不夠準確等問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011185864.7/2.html,轉載請聲明來源鉆瓜專利網。





