[發明專利]一種邊界合成、混合采樣、異常檢測算法及數據分類方法在審
| 申請號: | 202010012834.X | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111259924A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 張麗翠;王茹雪;王鵬程;王劍鎂;張春霞;劉淑岐 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京君泊知識產權代理有限公司 11496 | 代理人: | 李丹 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 邊界 合成 混合 采樣 異常 檢測 算法 數據 分類 方法 | ||
本發明公開了一種邊界合成算法,涉及不平衡數據的分類技術領域,包括以下步驟:設原始訓練數據集為D,正類樣本集為P,正類樣本數目為pnum,負類樣本集為N;步驟一,通過BSMOTE算法將正類樣本集為P分成噪聲樣本集、邊界樣本集和安全樣本集;步驟二,在給定過采樣率ratio的情況下,訓練數據集需合成新樣本的數量G得以確定,為每個正類邊界樣本賦予采樣權值ωj,由ωj與G得到每一個正類邊界樣本應合成新樣本的數目gj;步驟三,將步驟二所得的gj個新樣本與噪聲樣本集、安全樣本集和負類樣本集共同組成平衡的訓練數據集,本發明的有益效果是:提高了分類器對不平衡數據的分類效果。
技術領域
本發明涉及不平衡數據的分類技術領域,具體是一種邊界合成、混合采樣、 異常檢測算法及數據分類方法。
背景技術
分類是數據挖掘和機器學習中重要的知識獲取手段之一,經典的分類算 法通常是基于數據集平衡這一假設而提出的,而在實際應用中,許多數據集是 不平衡的,并且少數類數據有時更重要,將其錯分要付出更大的代價,如信用 卡欺詐檢測、醫療診斷、垃圾郵件判別等。因此,以總體分類精度為學習目標 的傳統分類算法并不適用于不平衡數據的分類,研究如何提高分類器對不平衡 數據的分類效果有著重要的意義。
近年來,許多學者在多個領域如文本分類、欺詐檢測、故障診斷、無線傳 感器入侵檢測、醫療診斷、推薦系統中根據用戶點擊進行分析等方面研究了不 平衡數據的分類問題。目前,主要有兩個方法去解決這一問題,第一種方法是 從數據的角度出發,對原始的訓練數據進行重采樣,使數據分布較為平衡;第 二種是從分類算法的角度出發,考慮分類器對不平衡數據分類的缺陷和誤分類 的代價對分類算法進行改進,使得新的分類算法可以在不平衡數據集上取得較 好的分類效果。
重采樣技術分為欠采樣(Under Sampling)和過采樣(Over Sampling)。 欠采樣通過篩選多數類數據來平衡數據集,最簡單的欠采樣方法是隨機欠采樣 RUS(Random UnderSampling),RUS從原始多數類數據集中隨機篩選數據,使 整體數據集較為平衡,但這種方式可能刪除一些有代表性的多數類數據,使分 類器無法完整的學習數據中隱含的規則。為了克服RUS的這一缺點,很多學者 進而提出其它的欠采樣方法,如Tomek Links算法,鄰域清理法NCL (Neighborhood Cleaning)算法,最近鄰規則欠采樣ENN(Edited NearestNeighbor)算法,基于KNN算法的KNN欠采樣算法等。另外也有學者提出利用 聚類算法對多數類樣本進行聚類,按比例抽取多數類樣本,使新的數據集與原 數據集有相似的樣本分布。孟曉龍則是通過使用邏輯回歸算法對多數類樣本進 行預測,并按概率抽取樣本。
與欠采樣相似,最簡單的過采樣方法是隨機過采樣ROS(Random Over Sampling),ROS通過復制少數類樣本使原始數據集較為平衡,但這種方法可能 會導致過擬合。Chawla等人提出的SMOTE算法通過分析少數類樣本特征空間, 生成與少數類樣本相似的樣本來使數據集平衡。BSMOTE算法則是尋找處于不同 類別數據的邊界數據,進而對少數類邊界數據過采樣。楊毅等人提出了精化邊 界的SMOTE算法,其根據邊界樣本的分布,對少數類樣本設置不同的過采樣倍 率。為了減少SMOTE算法在合成少數類樣本的隨機性,也有學者提出了SMOTE-D 算法。還有學者提出對不同的少數類樣本尋找適合的K值進行新的數據合成。 而C_SMOTE算法則是不需要定義SMOTE算法的K值,而是圍繞少數類樣本的重 心合成新的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012834.X/2.html,轉載請聲明來源鉆瓜專利網。





