[發明專利]一種帶噪聲學習的負樣本對抗生成方法有效
| 申請號: | 202010045213.1 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111428853B | 公開(公告)日: | 2023-07-11 |
| 發明(設計)人: | 章昭輝;蔣昌俊;王鵬偉;楊麗俊 | 申請(專利權)人: | 東華大學 |
| 主分類號: | G06N3/094 | 分類號: | G06N3/094;G06N3/0475;G06N3/0455;G06F18/214;G06F18/241 |
| 代理公司: | 上海申匯專利代理有限公司 31001 | 代理人: | 徐俊 |
| 地址: | 201600 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 噪聲 學習 樣本 對抗 生成 方法 | ||
1.一種基于噪聲學習的對抗樣本生成方法,其特征在于,采用自動編碼器結合生成對抗網絡的結構,包括編碼器E、解碼生成器G和判別器D,其中,編碼器對輸入的每一條交易數據學習其欺詐特征模式,進行壓縮編碼后,得到輸入交易的特征空間z;將自動編碼器中的解碼器和生成對抗網絡中的生成器結構合二為一,兩個網絡共享權值參數,形成解碼生成器G;判別器D是一個分類器模型,判別器D不僅會讀取原始數據,標記為true,還會將解碼生成器G生成的數據作為輸入,標記為false,給出true或者false的結果,所述對抗樣本生成方法包括以下步驟:
步驟1、依據數據集中帶標簽樣本的標簽,將所有帶標簽樣本劃分為不同的樣本數據集,通過數據抽取方法從交易負樣本數據中抽取出負樣本數據集;
步驟2、建立模型,并利用上一步獲得的負樣本數據集對模型進行訓練,包括以下步驟:
S201、初始化模型
獲取上一步得到的交易負樣本數據集,作為模型中編碼器E和判別器D的輸入;設置模型的網絡層數、節點數、激活函數、梯度訓練函數,對模型的參數訓練次數、網絡權值、偏置值、學習率初始化后,構建初始的模型;
S202、模型訓練
根據給定的訓練次數、迭代方案、優化目標,對模型進行對抗訓練,編碼器E、解碼生成器G和判別器D的優化目標分別表示為:
編碼器E優化目標:
式中,LEncoder表示編碼器損失、X表示原始數據、E=E(X)表示通過編碼器重建的樣本;
判別器優化:
式中,表示損失函數,x表示生成數據或樣本數據、D=D(x)表示判別器輸出,pdata表示真實數據分布,表示真實數據下的損失,pz表示生成數據分布,z表示隨機噪聲,G(z)表示生成數據樣本,D(G(z))表示判別器對生成樣本的區分,G(E(X))表示編碼器指導下生成樣本,D(G(E(X)))表示判別器對G(E(X))的區分,表示生成數據下的損失;
解碼生成器優化:
當編碼器E、解碼生成器G和判別器D達到優化目標后,模型停止更新;
S203、模型保存;
步驟3、對模型進行數據生成質量檢驗;
步驟4、對模型進行分類實驗檢驗:
將步驟2中模型最終生成的數據作為分類結構的輸入,訓練分類結構,得到交易數據的欺詐檢測結果。
2.如權利要求1所述的一種基于噪聲學習的對抗樣本生成方法,其特征在于,所述步驟1之后,并所述步驟2之前還包括:
分析上一步得到的負樣本數據集的缺失、異常和重復情況,對負樣本數據集清洗,對缺失值進行刪除或者填補,噪聲數據光滑處理,離群點刪除或平滑,完成數據清理工作。
3.如權利要求1所述的一種基于噪聲學習的對抗樣本生成方法,其特征在于,步驟S203中,模型訓練完成后,通過TensorFlow將模型保存。
4.如權利要求1所述的一種基于噪聲學習的對抗樣本生成方法,其特征在于,所述步驟3包括以下步驟:
S301、網絡模型讀取與生成器加載
對于訓練好的模型,通過TensorFlow參數保存文件加載到模型中,還原得到生成器模型;抽樣生成不同批的交易負樣本數據;同時從原始負樣本數據集中抽樣得到同樣大小的樣本數據集;
S302、數據生成結果驗證
從數據分布和數據相關性兩個角度驗證數據生成質量;
S303、綜合計算
將步驟S302結果加權求和,得到綜合評估得分。
5.如權利要求4所述的一種基于噪聲學習的對抗樣本生成方法,其特征在于,所述步驟4包括以下步驟:
S401、數據集合成
執行步驟S301,抽樣生成不同批的交易負樣本數據;將生成的數據與原始數據集合并得到新的平衡數據集;
S402、初始化模型
設置分類結構的模型結構,輸入數據進入分類結構的處理層;
S403、訓練模型
訓練二分類模型,模型將在驗證數據集上評估當前模型的檢測性能,如果當前性能提升小于閾值,模型停止更新,記錄下模型訓練結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東華大學,未經東華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010045213.1/1.html,轉載請聲明來源鉆瓜專利網。





