[發明專利]一種面向卷積神經網絡的粗粒度參數正則化方法在審
| 申請號: | 201910584447.0 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110413947A | 公開(公告)日: | 2019-11-05 |
| 發明(設計)人: | 劉天元;鮑勁松;汪俊亮 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06F17/16 | 分類號: | G06F17/16;G06N3/04 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 翁若瑩;王文穎 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 權重矩陣 卷積神經網絡 粗粒度 系數矩陣 卷積核 協方差 正則化 矩陣 參數提取 神經網絡 損失函數 維列向量 表達性 列向量 準確率 范數 方差 卷積 拉伸 原卷 | ||
本發明公開了一種面向卷積神經網絡的粗粒度參數正則化方法,其特征在于,將卷積神經網絡中同一卷積層上的各卷積核拉伸為一維列向量,并將這些列向量重塑為二維權重矩陣;計算該權重矩陣各列的均值和方差,并由此計算該權重矩陣任意兩列的協方差;根據該權重矩陣任意兩列之間的協方差計算該兩列間的相關系數,得出該權重矩陣的相關系數矩陣,并將此相關系數作為卷積核之間差異程度的表征;計算該相關系數矩陣的范數并作為粗粒度正則項加入原卷積神經網絡的損失函數。本發明可以使用更少的卷積核參數提取更具表達性的特征從而得到更高的識別準確率。
技術領域
本發明涉及一種面向卷積神經網絡的粗粒度參數正則化方法,屬于機器學習、深度學習、圖像處理等交叉技術領域。
背景技術
隨著ImageNet、COCO等大型數據集的公布,卷積神經網絡(Convolutional NeuralNetworks,CNN)的能力得到了很大的發揮。雖然CNN在圖像分類、目標檢測、語音識別、語義分割等重要任務上取得了跨時代的進步,在實際應用如行人檢測、車牌識別等領域也開始嶄露頭角并顯示出了巨大的潛力,但是由于大數據時代和工業工業4.0開始不久,人們對現實生活中尤其是工業領域的數據收集還不足夠而且不同的單位收集的數據也各有差別,這直接限制了深度學習方法在現實生活中尤其是工業領域的深度和廣泛應用。這種小樣本的特點會大大增加CNN模型過擬合的風險,因此往往需要對CNN模型進行正則化來防止模型過擬合。
廣義上來說正則化要做的事情就是將先驗信息以不同方式加入到網絡中,從而減小過擬合的風險。這種先驗信息有來自于輸入的如數據增廣、數據標準化、正交初始化等;有來自于網絡架構的如多任務學習、GoogleNet加入多尺度結構、ResNet加入直連通道、DenseNet采用密集連接鼓勵特征重用等;有來自于訓練過程的如Early Stopping、Dropout、Dropblock、梯度裁剪等;有來自于權重參數的如L1、L2正則化等。鑒于針對權重參數的L1、L2正則化方法理論完備,其限制模型復雜度的能力符合奧卡姆剃刀原理且是即插即用的通用化組件,因此該方法在實際任務中得到了廣泛的應用,但是該方法是針對每一個權重參數進行細粒度操作且對所有權重參數不加分別的處理。CNN網絡雖然得到了快速的發展,各種創新思路層出不窮,但是卷積和池化仍然是CNN的基本操作,這就存在卷積核的數目設置過多會導致提取到的特征具有相似性,卷積核的數目設置過少則導致提取到的特征表達能力不足的問題,因此L1、L2方法雖然可以縮小解空間從而防止過擬合,但是無法提高卷積核的特征提取性能且無法利用網絡的全部容量。更進一步,CNN中的權重參數的特點是作為特定組合存在于卷積核中,因此權重參數之間具有局部相關性,而L1、L2正則化方法對于這種局部相關性缺乏考慮。
發明內容
本發明所要解決的技術問題是:現有L1、L2正則化對所有權重參數進行不加區分的細粒度操作而忽略了卷積核整體性的問題。
為了解決上述技術問題,本發明提供了一種面向卷積神經網絡的粗粒度參數正則化方法,其特征在于,包括以下步驟:
步驟1):將卷積神經網絡中同一卷積層上的各卷積核拉伸為一維列向量,并將這些列向量重塑為二維權重矩陣;
步驟2):計算該權重矩陣各列的均值和方差,并由此計算該權重矩陣任意兩列的協方差;
步驟3):根據該權重矩陣任意兩列之間的協方差計算該兩列間的相關系數,得出該權重矩陣的相關系數矩陣,并將此相關系數作為卷積核之間差異程度的表征;
步驟4):計算該相關系數矩陣的范數并作為粗粒度正則項加入原卷積神經網絡的損失函數。本發明考慮了卷積神經網絡中權重參數以特定組合存在于卷積核中這一特點。
優選地,所述步驟1)具體如下:
步驟1.1):將通道數為c、寬為w、高為h的三維卷積核拉伸為一個長為m的一維列向量;為方便閱讀,令m=cwh;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910584447.0/2.html,轉載請聲明來源鉆瓜專利網。





