[發明專利]一種基于空間融合池化的深度神經網絡方法有效
| 申請號: | 201710619831.0 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107506822B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 龐彥偉;李亞釗 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 空間 融合 深度 神經網絡 方法 | ||
本發明涉及一種基于空間融合池化的深度神經網絡方法,用于圖像分類,包括:收集各種不同類別的圖像,并標注圖像類別,作為圖像標簽信息;圖像集劃分;將收集的圖像劃分為訓練集,驗證集和測試集,訓練集用于訓練卷積神經網絡;設計應用于圖像分類的深度神經網絡結構,包括所用的卷積層層數和空間融合池化層的層數,設計卷積層中濾波器的個數,設計空間融合池化層的中的融合函數形式和空間滑動步長和池化函數和池化窗口尺寸以及步長,設計用于特征融合的卷積濾波器結構,設計網絡訓練循環迭代的次數和網絡最終收斂條件,并初始化網絡參數;將訓練數據批量的輸入到該網絡中,進行計算和訓練。
技術領域
本發明涉及計算機視覺領域中高性能的圖像識別分類和物體識別的方法,特別是涉及采用深度學習方法的圖像識別分類和物體識別的方法。
背景技術
近年來,深度學習技術廣泛的應用于計算機視覺領域的圖像分類、語義分割和物體檢測以及自動駕駛等多個任務上。作為深度學習技術中重要的實現方法,深度卷積神經網絡在眾多任務上取得了顯著的效果。
深度卷積神經網絡往往由多層卷積層和池化層組成,其中卷積層包含濾波器參數用于提取特征,池化層用于保持神經網絡的平移不變性,減少數據擾動對神經網絡性能產生的影響,并實現對輸入特征的選擇和采樣。深度卷積神經網絡的卷積層通常設有多個卷積核,輸出多張特征圖(也稱為多個通道),因此池化層的輸入也具有多個通道。
在深度卷積神經網絡中,傳統的池化操作是通過對輸入特征的某個正方形鄰域進行特征采樣,來達到維度降低和保持平移不變性。傳統的池化操作是對單特征圖分別處理,即正方形鄰域是在單特征圖上進行滑動選取。如較為簡單的最大值池化,通過在正方形鄰域內選擇特征值最大的特征作為池化輸出,均值池化則通過求取鄰域內特征值的平均值作為池化輸出。改進的池化操作,如隨機池化[1]則根據鄰域各個特征值大小設定的概率值,隨機選擇某個特征值進行輸出,起到了一定的正則化的作用,提升了網絡的性能。[2]提出通過學習一個池化函數來實現對傳統的多種池化方法的組合,是一種混合的方法,有助于提升特征的多樣性,選擇更具有代表性的特征。基于頻域變換的方法[3],提出將特征圖變換到頻域,并在頻域進行特征選取,通過削減能量占比較小的高頻成分,保留能量較大的低頻成分,使得大部分特征信息得到保持。
雖然上述提到的池化方法,使得深度卷積神經網絡性能得到了一定的提升,但是仍然存在一定缺陷。傳統的池化操作是在單張特征圖上進行采樣,并未利用各特征圖之間的通道信息,也就是說存在空間信息損失。此外,傳統的池化操作只是對特征進行采樣,并未涉及到特征融合,進一步的特征融合將有助于提升池化的效果,得到更具表達力,更穩定的特征。由于傳統池化操作是對各個通道分別進行操作,所以池化操作前后,特征通道數保持不變,單特征通道的維度因為特征采樣而降低。隨著深度卷積神經網絡的廣泛應用,對于處理能力較弱的硬件,降低網絡復雜度同時保持網絡性能,成為改進網絡結構需要解決的問題。因此,通過池化操作得到更具表達力的少數特征,有助于提升網絡效率。
對比以上方法存在的缺陷,本專利提出一種基于空間融合池化的深度神經網絡方法,用于融合并提取更具表達力的特征,進一步提升深度卷積神經網絡的性能。在降低各特征圖維度的同時,通過降低特征通道數以提升網絡效率。以圖像識別分類任務為例:首先,輸入的圖像數據經過深度神經網絡的卷積層用于提取層次特征。之后,將卷積層特征輸入到空間信息融合池化層,該池化層先將利用特征通道信息,將各特征通道進行融合,在此基礎上進行進一步的特征采樣。通過迭代的對深度神經網絡進行訓練,得到最后的網絡模型。最后,應用該模型進行圖像識別和分類。
參考文獻:
[1]M.Zeiler and R.Fergus,“Stochastic pooling for regularization ofdeep convolutional neural networks,”In Proc.International Conference onLearning Representations,2013.
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710619831.0/2.html,轉載請聲明來源鉆瓜專利網。





