[發明專利]一種基于WGAN訓練收斂的不平衡數據集分析方法在審
| 申請號: | 202110736686.0 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113537313A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 許艷萍;裘振亮;章霞;葉挺聰;仇建;張樺;吳以凡;張靈均;陳政 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 wgan 訓練 收斂 不平衡 數據 分析 方法 | ||
1.一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:該方法具體包括以下步驟:
步驟一、數據采集與預處理
采集網絡安全數據,按照類別標簽將網絡安全數據分割成多類數據子集和少類數據子集,并計算兩個子集間的不平衡度與過采樣率,根據過采樣率確定生成少類數據的數量;
步驟二、構建WGAN模型
構建包含生成器G和判別器D的WGAN模型,將噪聲數據以及步驟一中的少類數據子集輸入到WGAN模型中,生成符合要求數量的新的少類數據;
步驟三、訓練WGAN模型
對WGAN模型中的生成器與判別器進行多次交叉迭代訓練,在一次迭代中首先固定判別器,訓練生成器,然后再固定生成器,訓練判別器;每一輪迭代訓練時,生成器的訓練次數是固定的,判別器的訓練次數根據代價函數的收斂情況動態變化;
步驟四、數據融合
使用步驟三訓練后的WGAN模型,輸出符合要求數量的新的少類數據,將其與步驟一中的少類數據子集融合后再與多類數據子集融合,形成新的網絡安全數據集;
步驟五、數據分類
將步驟四得到的新的網絡安全數據集輸入淺層機器學習模型中,對淺層機器學習模型模型進行訓練;然后再將無標簽的網絡安全數據輸入訓練后的淺層機器學習模型,輸出對應的預測標簽,完成網絡安全數據的分類。
2.如權利要求1所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:定義不同類別數據間的不平衡度IR和過采樣率R分別為:
其中,N+和N-分別為采集的網絡安全數據中,多類數據和少類數據的數量,表示對數據向下取整。
3.如權利要求1所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:生成器G和判別器D的網絡結構由全連接層構成。
4.如權利要求1所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:判別器訓練次數為前兩輪迭代中判別器收斂時的最小代價的比值向下取整。
5.如權利要求1所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:所述淺層機器學習模型為支持向量機、決策樹或樸素貝葉斯模型。
6.如權利要求1所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:在WGAN模型的訓練過程中,選擇Wasserstein距離作為損失函數。
7.如權利要求6所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:所述Wasserstein距離的定義為:
其中,PD是判別器數據,PG是生成器數據,W(PD,PG)是PD和PG組成的所有可能聯合分布的集合;對于聯合分布γ來說,數據子集Xs和數據集Xf符合分布(Xs,Xf)~γ,||Xs-Xf||表示樣本之間的距離,在聯合分布下樣本距離的期望值為取下界定義為Wasserstein距離。
8.如權利要求6或7所述一種基于WGAN訓練收斂的不平衡數據集分析方法,其特征在于:引入K-Lipschitz限制條件|fw(Xs)-fw(Xf)|≤K*|Xs-Xf|對Wasserstein距離進行求解,將其轉化為:
考慮到的第一項與生成器無關,因此可以將拆分為和分別表示判別器Loss和生成器Loss;
公式(7)與公式(6)互反,可以指示訓練進程,其數值越小,表示真實分布與生成分布的Wasserstein距離越小,GAN訓練得越好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110736686.0/1.html,轉載請聲明來源鉆瓜專利網。





