[發明專利]一種有效訓練深度卷積神經網絡的方法在審
| 申請號: | 201710732378.4 | 申請日: | 2017-08-24 |
| 公開(公告)號: | CN107704917A | 公開(公告)日: | 2018-02-16 |
| 發明(設計)人: | 郝群;蔣陽;曹杰;閆雷;高澤東 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙)11639 | 代理人: | 毛燕 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 有效 訓練 深度 卷積 神經網絡 方法 | ||
技術領域
本發明屬于深度學習領域,涉及一種訓練卷積神經網絡的方法,特別是涉及一種訓練深度卷積神經網絡加速收斂和提高泛化能力的方法。
背景技術
卷積神經網絡是深度學習的一種,它通過組合低層特征形成更加抽象的高層,從而發現數據的分布式特征表示。近年來,在圖像識別等計算機視覺領域的研究和應用中,卷積神經網絡較為流行,相比于傳統算法,其識別率在圖像分類任務上已取得了優異的表現。卷積神經網絡訓練的本質是在樣本上是最小化網絡輸出損失函數的過程,即利用隨機梯度下降算法沿網絡連接反向傳遞損失函數的梯度,不斷迭代更新網絡權重使得損失函數最小,從而擬合出一個從輸入到輸出的非線性映射函數。
訓練深度卷積網絡較為困難。理論上三層神經網絡寬度上神經元的個數足夠多,就可以通過訓練將其損失函數無限逼近于零,但實際訓練中將引起嚴重的過擬合。相對而言,增加網絡深度比增加網絡寬度可以帶來更好的泛化效果,且網絡越深越好。然而網絡深度的增加使得模型收斂困難,即訓練深度網絡時,由于激活函數的非線性性質,網絡收斂速度較慢,甚至無法收斂。
為保障模型收斂,現有的深度卷積網絡主要采用非飽和非線性激活函數ReLU、嚴格的網絡權值初始化、精細調節的學習效率,并對每層信號進行BN(批量規范化)處理形成“卷基層+BN+ReLU”卷積單元,這在一定深度內取得了不錯的效果,然而隨著深度進一步增加,模型收斂速度顯著變慢,訓練困難問題并沒有得到有效解決。綜上所述,有效訓練深度卷積神經網絡是目前亟待解決的問題。
發明內容
本發明公開的一種有效訓練深度卷積神經網絡的方法要解決的問題是:提供一種有效訓練深度卷積神經網絡的方法,能有效提高深度卷積神經網絡的收斂速度,提高模型的泛化能力。本發明適應于在深度學習相關領域工程實際應用。
本發明目的通過下述技術方案實現。
本發明公開的一種有效訓練深度卷積神經網絡的方法,對深度卷積神經網絡中激活函數建立可訓練的模型,使深度卷積神經網絡成為線性初始狀態,并在訓練中逐步引入非線性變化最終達到收斂,在提高收斂速度的同時提高深度卷積神經網絡模型的泛化能力。
本發明公開的一種有效訓練深度卷積神經網絡的方法,包括如下步驟:
步驟一:針對線性修正單元ReLU的缺點進行改進,提出自適應可延伸的線性修正單元Extensible ReLU(EReLU)。
線性修正單元ReLU的表達式為:
通過引入參數t,使線性修正單元ReLU公式(1)改進為自適應可延伸的線性修正單元EReLU公式(2)。
公式(2)寫為y=max(0,x-t)+t,當參數t=0時,自適應可延伸的線性修正單元EReLU退化為線性修正單元ReLU。其中,參數t可正可負且采用權值共享策略,參數t數量與卷積核數量一致。參數t能夠在訓練過程中依靠鏈式法則完成自我學習。定義ti為神經網絡中的任意一激活層中某個自適應可延伸的線性修正單元EReLU的參數,則
其中為ε損失函數,為從更深層的網絡傳來的梯度,為對該層所有神經元激活函數的加和,f(·)為自適應可延伸的線性修正單元EReLU,則由公式(2)得梯度為:
引入動量μ來更新參數ti:
引入參數t的數量與卷積核數量相同,避免引起過擬合。
所述的線性修正單元ReLU包括如下缺點:(1)由于線性修正單元ReLU屏蔽信號的負值區域,導致深度卷積神經網絡模型在訓練中存在死亡梯度,造成有效信號丟失,降低深度卷積神經網絡模型表達能力;(2)由于線性修正單元ReLU屏蔽信號的負值區域,導致深度卷積神經網絡模型每層權值期望隨著訓練進行出現偏移,降低網絡收斂速度。
步驟二:初始化步驟一中的參數t,使深度卷積神經網絡模型成為線性結構的初始形態,通過參數t自我學習,實現從線性到非線性的訓練深度卷積神經網絡方法。
將網絡權值賦值為期望為0、方差為的正態分布,將步驟一得到的自適應可延伸的線性修正單元EReLU中參數t賦值為小于-1的實數,所述的參數t的實數優選-1。其中k為卷積核尺寸,n為卷基層輸出通道數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710732378.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種計算機硬件故障檢測裝置
- 下一篇:一種計算機散熱性能測試裝置





