[發明專利]一種改進的并行通道卷積神經網絡訓練方法在審
| 申請號: | 201710247556.4 | 申請日: | 2017-04-17 |
| 公開(公告)號: | CN107092960A | 公開(公告)日: | 2017-08-25 |
| 發明(設計)人: | 屈景怡;朱威;李佳怡;吳仁彪 | 申請(專利權)人: | 中國民航大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 天津才智專利商標代理有限公司12108 | 代理人: | 龐學欣 |
| 地址: | 300300 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 并行 通道 卷積 神經網絡 訓練 方法 | ||
技術領域
本發明屬于深度學習以及大數據技術領域,具體涉及一種改進的并行通道卷積神經網絡訓練方法。
背景技術
隨著社會的發展,大數據時代的來臨,與之相關的技術不斷發展和創新。深度學習因其能利用海量數據并通過更深層網絡的訓練提高分類正確率,在近年來取得一些列突破性進展。學者們都試圖通過增加卷積神經網絡的規模來提升其性能,而增加網絡規模最簡單的方式就是增加“深度”。
然而基于傳統卷積神經網絡的結構搭建的深度網絡,隨著網絡層數的增加,精度會達到飽和,甚至降低。文獻“Romero A,Ballas N,Kahou S E,et al.Fitnets:Hints for thin deep nets[J].arXiv preprint arXiv:1412.6550,2014.”中提出一種多階段訓練方法,先分別訓練多個淺層網絡,最后將多個淺層網絡進行組合,從而實現一個深層網絡。這樣做需要人為地分別對多個網絡參數進行調節,耗時耗力,且分別訓練多個淺層網絡會丟失網絡之間的關聯信息,將對網絡最后的性能產生影響。文獻“Lee C Y,Xie S,Gallagher P,et al.Deeply-Supervised Nets[C]//Proceedings of the Eighteenth International Conference on Artificial Intelligence and Statistics.2015:562-570”則在深度卷積神經網絡的隱藏層引入了多個輔助分類器,該方法雖然可以一定程度地補償深層網絡誤差反向傳導時的梯度消失問題,但是引入的輔助分類器也會對網絡最后的精度產生影響。
更深度的網絡無法訓練的問題一直沒有從根本上解決,所提出的網絡結構仍然是基于傳統卷積神經網絡設計的,只是在訓練過程中使用了各種優化技巧,如:更好的網絡初始化參數、更高效的激勵函數等。
發明內容
為了解決上述問題,本發明的目的在于提供一種改進的并行通道卷積神經網絡訓練方法。
為了達到上述目的,本發明提供的改進的并行通道卷積神經網絡訓練方法包括按順序進行的下列步驟:
1)分別利用直連和卷積兩個并行通道對卷積神經網絡中的數據進行特征提取,得到直連通道特征矩陣和卷積通道特征矩陣;
2)將步驟1)得到的兩個特征矩陣進行合并,并輸入到最大池化層和均值池化層進行數據降維;
3)重復步驟1)、步驟2),得到最終特征矩陣;
4)將上述步驟3)得到的最終特征矩陣進行全局平均池化并輸入全連接層變為一維特征矩陣,并利用softmax分類器對一維特征矩陣進行分類而對卷積神經網絡進行訓練,計算此次網絡訓練的損失值;
5)利用誤差反向傳播算法進行梯度計算,計算各層誤差項和權值梯度;
6)根據步驟4)中所得損失值判斷網絡是否收斂,如不收斂,依據步驟5)中獲得的權值梯度調整卷積神經網絡初始化參數并重新進行訓練,如已收斂則輸出網絡訓練結果。
在步驟1)中,所述的分別利用直連和卷積兩個并行通道對卷積神經網絡中的數據進行特征提取,得到直連通道特征矩陣和卷積通道特征矩陣的方法是:首先,將數據分別輸入直連通道和卷積通道;然后在直連通道中直接將數據映射為直連通道特征矩陣作為輸出,在卷積通道上利用多個卷積層對數據進行卷積操作,每個卷積層的輸入是上一個卷積層的輸出,將最后一個卷積層輸出矩陣作為卷積通道的特征矩陣。
在步驟2)中,所述的將步驟1)得到的兩個特征矩陣進行合并,并輸入到最大池化層和均值池化層進行數據降維的方法是:首先,將直連通道所得特征矩陣和卷積通道所得特征矩陣進行合并,即得到多個特征矩陣的集合;然后分別將所得特征矩陣輸入最大池化層和均值池化層,在最大池化層,使用濾波器取濾波器內值的最大值,在均值池化層使用濾波器取濾波器內的平均值。
在步驟4)中,所述的將上述步驟3)得到的最終特征矩陣進行全局平均池化并輸入全連接層變為一維特征矩陣,并利用softmax分類器對一維特征矩陣進行分類而對卷積神經網絡進行訓練,計算此次網絡訓練的損失值的方法是:首先,對最終特征矩陣進行全局平均池化,使用和最終特征矩陣大小一致的濾波器計算特征矩陣中數據的平均值;然后,輸入全連接層,全連接層中每個神經元分別對全局平均池化后的特征矩陣中的數據進行非線性變換得到一維特征矩陣;最后,將一維特征矩陣輸入softmax分類器進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民航大學,未經中國民航大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710247556.4/2.html,轉載請聲明來源鉆瓜專利網。





