[發明專利]一種基于低維流形正則化神經網絡的過擬合解決方法在審
| 申請號: | 201810065330.7 | 申請日: | 2018-01-23 |
| 公開(公告)號: | CN108256630A | 公開(公告)日: | 2018-07-06 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 擬合 神經網絡 正則化 目標模型 網絡參數 最優解 求解 低維 流形 模型參數更新 限制性條件 反向傳播 方法更新 計算資源 模型參數 損失函數 學習能力 訓練結果 噪聲變量 魯棒性 輕量化 數據集 網絡權 標簽 應用 協調 | ||
1.一種基于低維流形正則化神經網絡的過擬合解決方法,其特征在于,主要包括目標模型定義(一);過擬合解決框架(二);模型參數求解(三);模型參數更新(四)。
2.基于權利要求書1所述的目標模型定義(一),其特征在于,使用深度神經網絡按以下三個步驟進行K分類問題,具體為:
1)定義為帶標簽的訓練數據集(其中d1表示數據集的維度),θ為網絡權重集合;對于每個數據點xi及其標簽yi∈{1,…,K},網絡最開始學習到的特征定義為其中d2表示特征集的維度;
2)使用softmax分類器對xi計算每一類標簽的概率,得到概率分布;
3)根據步驟2)得到概率最高的一類標簽被視為單個數據點xi的分類結果yi,計算其負對數作為softmax損失函數再統計所有數據點的softmax損失函數并取其均值J(θ)作為整個網絡的損失函數,來調節網絡權重θ:
其中N為數據點xi的總數量。
3.基于權利要求書1所述的過擬合解決框架(二),其特征在于,用低維度的流形數據形式來表征稀疏的數據源,以避免在訓練過程中出現過擬合現象(即平均損失函數的值在訓練集處于較低水平,而在測試集上處于較高水平),由此提出限制條件:
1)在數據源上進行定量改動不會引起已經提取特征ξ的劇烈變化;
2)數據源和特征ξ進行合并,能夠表征低維流形數據其中d=d1+d2表示合并和數據流維度,是fθ關于的曲線;
在上述限制條件下,使用可變形式的正則化方法和輕量化方法減少過擬合現象。
4.基于權利要求書3所述的正則化方法,其特征在于,通過最小化的維度得到最優損失函數J(θ),具體為:
其約束條件為
公式(2)中,表示任意變量的流形數據,表示其幅值。
5.基于權利要求書3所述的輕量化方法,其特征在于,令作為平滑的子流形數據用同分異構的方式嵌入空間對任意有
其中,αi(p)=pi是協調函數,是指對流形數據進行求導運算,由此,
公式(2)可由更輕量化的形式表示:
其中指對局部維度進行L1范數計算,λ為控制系數。
6.基于權利要求書1所述的模型參數求解(三),其特征在于,對θ和給定的如果在第k步時滿足則在第k+1步時有具體求解參數為學習所得特征的協調函數
其中,權重集合的迭代過程為:
其中,μ為比例系數,Zi為雙向噪聲變量。
7.基于權利要求書6所述的雙向噪聲變量,其特征在于,用于擾動協調函數,以適應輸入數據為固定值的情況,增強網絡學習能力與魯棒性,具體迭代過程為:
其中,αξ為學習所得特征的協調函數。
8.基于權利要求書1所述的模型參數更新(四),其特征在于,包括基于反向傳播的網絡權重更新和基于點積分的協調函數更新。
9.基于權利要求書8所述的網絡權重更新,其特征在于,根據公式(6)定義反向傳播能量項Ei(θ),具體為:
則公式(6)的求解目標函數為:
對公式(9)中的權重系數求導,可得到反向傳播的迭代訓練,具體為:
這種隨機梯度更新的方法可降低計算資源的占用。
10.基于權利要求書8所述的協調函數更新,其特征在于,對公式(5)進行解耦合處理,根據變量j來更新每個協調函數αj:
其中,u=αj,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810065330.7/1.html,轉載請聲明來源鉆瓜專利網。





