[發明專利]一種邊界合成、混合采樣、異常檢測算法及數據分類方法在審
| 申請號: | 202010012834.X | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111259924A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 張麗翠;王茹雪;王鵬程;王劍鎂;張春霞;劉淑岐 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京君泊知識產權代理有限公司 11496 | 代理人: | 李丹 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 邊界 合成 混合 采樣 異常 檢測 算法 數據 分類 方法 | ||
1.一種邊界合成算法,其特征在于,包括以下步驟:
設原始訓練數據集為D,正類樣本集為P,正類樣本數目為pnum,負類樣本集為N;
步驟一,通過BSMOTE算法將正類樣本集P分成噪聲樣本集、邊界樣本集和安全樣本集;
步驟二,在給定過采樣率ratio的情況下,訓練數據集需合成新樣本的數量G得以確定,為每個正類邊界樣本賦予采樣權值ωj,由ωj與G得到每一個正類邊界樣本應合成新樣本的數目gj;
步驟三,將步驟二所得的gj個新樣本與噪聲樣本集、安全樣本集和負類樣本集共同組成平衡的訓練數據集。
2.根據權利要求1所述的一種邊界合成算法,其特征在于,所述采樣權值ωj為:
式中,dsumpj為正類邊界樣本到它m最近鄰中各個正類樣本距離之和,m為正類樣本在原始訓練數據集D中的最近鄰數量,m'為正類樣本最近鄰中負類樣本的數量。
3.一種混合采樣算法,其特征在于,包括以下步驟:
設原始訓練數據集為D,正類樣本集為P,正類樣本數目為pnum,負類樣本集為N;
步驟一,使用欠采樣方法和如上述所述的自適應邊界合成算法分別對負類樣本集和正類樣本集進行重新采樣;
步驟二,得到若干個平衡數據子集;
步驟三,以AdaBoost算法為基分類器Gt(x),對若干個平衡數據子集進行處理,并為基分類器引入關于F1值的分類誤差率εt',并以分類誤差率εt'計算基分類器Gt(x)的權值αt;
步驟四,將若干個平衡數據子集的處理結果匯總與原始訓練數據集合并后輸出。
4.根據權利要求3所述的一種混合采樣算法,其特征在于,所述分類誤差率εt'為:
εt'=εt*(1-F1t),式中,F1t為第t次迭代時基分類器Gt(x)分類后的F1值。
5.根據權利要求4所述的一種混合采樣算法,其特征在于,所述基分類器Gt(x)的權值αt為:
6.根據權利要求5所述的一種混合采樣算法,其特征在于,在t+1次迭代時,權值ωt+1,i與t次迭代時的權值ωti的關系為:
其中Zt是規范因子,使得p為調節參數,取值為[1,10]之間的整數。
7.一種異常檢測算法,其特征在于,包括以下步驟:
步驟一,設置好參數,對數據進行預處理;
步驟二,將步驟一所得的數據利用iForest算法進行處理,濾除其中平均分割路徑長度小于設定閾值的數據,保留平均分割路徑長度不小于設定閾值的數據作為正常數據子集;
步驟三,利用LOF算法對步驟二中濾除的、平均分割路徑長度小于設定閾值的數據進行處理,剔除其中不符合要求的數據作為異常數據子集,其余數據作為正常數據子集。
8.一種數據分類方法,其特征在于,包括以下步驟:
通過BSMOTE算法將正類樣本集P分成噪聲樣本集、邊界樣本集和安全樣本集;
在給定過采樣率ratio的情況下,訓練數據集需合成新樣本的數量G得以確定,為每個正類邊界樣本賦予采樣權值ωj,由ωj與G得到每一個正類邊界樣本應合成新樣本的數目gj;
將所得的gj個新樣本與噪聲樣本集、安全樣本集和負類樣本集共同組成平衡的訓練數據集;
分別對負類樣本集和正類樣本集進行重新采樣,得到若干個平衡數據子集;
以AdaBoost算法為基分類器Gt(x),對若干個平衡數據子集進行處理,并為基分類器引入關于F1值的分類誤差率εt',并以分類誤差率εt'計算基分類器Gt(x)的權值αt;
將若干個平衡數據子集的處理結果匯總與原始訓練數據集合并后輸出;
設置好參數,對所得數據進行預處理;
將所得的數據利用iForest算法進行處理,濾除其中平均分割路徑長度小于設定閾值的數據,保留平均分割路徑長度不小于設定閾值的數據作為正常數據子集;
利用LOF算法對濾除的、平均分割路徑長度小于設定閾值的數據進行處理,剔除其中不符合要求的數據作為異常數據子集,其余數據作為正常數據子集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012834.X/1.html,轉載請聲明來源鉆瓜專利網。





