[發明專利]基于關鍵路徑的神經網絡訓練方法和裝置在審
| 申請號: | 202010889881.2 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112183717A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 劉艾杉;劉祥龍;李恬霖 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京汲智翼成知識產權代理事務所(普通合伙) 11381 | 代理人: | 陳曦;陳琳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關鍵 路徑 神經網絡 訓練 方法 裝置 | ||
本發明公開了一種基于關鍵路徑的神經網絡訓練方法,同時公開了相應的基于關鍵路徑的神經網絡訓練裝置。本發明通過樣本級別關鍵路徑,找尋到神經網絡的模型級別關鍵路徑。通過該路徑來揭示噪音在模型中的傳播與放大過程,在神經網絡的訓練過程中,通過對該路徑進行限制,有效提升神經網絡的魯棒性。
技術領域
本發明涉及一種基于關鍵路徑的神經網絡訓練方法,同時涉及相應的基于關鍵路徑的神經網絡訓練裝置,屬于深度學習技術領域。
背景技術
近年來,深度學習已經在計算機視覺和自然語言處理等多個富有挑戰性的領域中取得了卓越的成就。在實際應用中,深度學習通常應用于大型數據集,在這些從日常生活中收集的數據所構成的數據集中,不可避免地包含了大量的噪音,其中包括了對抗樣本噪音和自然噪音。雖然這些噪音對于人類的認知和物體識別沒有影響,但是它們能誤導深度神經網絡做出錯誤的決策,這對實踐中機器學習在數字和物理世界的應用構成了嚴重的安全威脅。
與此同時,為何微小的噪音會造成深度神經網絡做出完全錯誤的決策,深度模型在分類和判斷時采取的依據是什么,這些都凸顯了可解釋性深度學習的重要性。因此,在最近的研究中,訓練魯棒的、可解釋的深度神經網絡受到了很高的重視。
眾所周知,深度學習模型對于噪音的不穩定性一般出現在正向傳播時某隱藏層特征圖和神經元激活值的突變,因此每個神經單元和由神經單元組成的路徑的穩定性顯得至關重要,增強其噪聲不敏感性并保證隱藏層的穩定行為將有助于保證穩健的模型。
發明內容
本發明所要解決的首要技術問題在于提供一種基于關鍵路徑的神經網絡訓練方法。
本發明所要解決的另一技術問題在于提供一種基于關鍵路徑的神經網絡訓練裝置。
為了實現上述目的,本發明采用下述的技術方案:
根據本發明實施例的第一方面,提供一種基于關鍵路徑的神經網絡訓練方法,包括如下步驟:
針對每個普通樣本,獲取神經網絡的樣本級別關鍵路徑;
根據樣本級別關鍵路徑,按層次聚合得到神經網絡的模型級別關鍵路徑;
針對神經網絡關鍵攻擊路徑,對神經網絡進行訓練。
其中較優地,所述針對神經網絡關鍵攻擊路徑,對神經網絡進行訓練,具體包括:
設置訓練集,所述訓練集中每個訓練樣本由原始樣本和對抗樣本構成;
構建對原始樣本和對抗樣本的梯度進行懲罰的第一懲罰損失函數;
或者,構建對神經網絡關鍵攻擊路徑的各關鍵攻擊單元權重進行懲罰的第二懲罰損失函數;
將各訓練樣本輸入至神經網絡,利用第一懲罰損失函數或第二懲罰損失函數,對神經網絡的每一層進行訓練。
其中較優地,所述第一懲罰損失函數表達式為:
公式(1)中,x表示普通樣本,x’表示對抗樣本,y表示訓練樣本的分類標簽,θ表示神經網絡的模型參數,表示對抗訓練損失函數,λ為第一懲罰損失函數的系數,表示神經網絡關鍵攻擊路徑中各關鍵攻擊單元的梯度和,其中:
在輸入為普通樣本條件下的各關鍵攻擊單元的梯度和的表達式為:
公式(2)中,F表示神經網絡的各層,表示神經網絡關鍵攻擊路徑中第l層的第m個關鍵攻擊單元,Ωl表示神經網絡關鍵攻擊路徑中第l層的各關鍵攻擊單元,表示原始損失函數對第l層的第m個關鍵攻擊單元的梯度,表達式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010889881.2/2.html,轉載請聲明來源鉆瓜專利網。





