[發明專利]基于SMOTE算法的過采樣方法、裝置和電子設備在審
| 申請號: | 202011216546.2 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112036515A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 劉國旗 | 申請(專利權)人: | 北京淇瑀信息科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/02 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 喬東峰 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 smote 算法 采樣 方法 裝置 電子設備 | ||
本發明提供了一種基于SMOTE算法的過采樣方法、裝置和電子設備。該方法包括:獲取歷史樣本數據集,確定正、負樣本及其對應數量;確定多數類樣本數據和少數類樣本數據,并進行數據向量化處理;使用離異點監測方法,從所述少數類樣本數據集中篩選目標樣本數據;基于SMOTE算法,對所述目標樣本數據進行過采樣,以生成特定數量的新樣本數據;根據所生成的新樣本數據和原始的少數類樣本數據,得到擴增后的少數類樣本數據集。本發明在優化采樣方法的同時,解決了數據不均衡的問題,還提升了模型預測的精確度,有效減少了數據不均衡引入的偏差。
技術領域
本發明涉及計算機信息處理領域,具體而言,涉及一種基于SMOTE算法的過采樣方法、裝置和電子設備。
背景技術
類別不平衡是分類任務中的一個典型問題,它主要表現為兩個類之間的樣本數量差距巨大。現實中存在很多類別不平衡的情況,比如金融詐騙與保險騙保的鑒別,醫學上癌癥的辨別等等。對不平衡數據進行分類的主要困難在于,傳統的機器學習方法是建立在訓練集類別平衡的基礎上的,對于數據偏差分布的情況敏感度較低,導致預測結果偏向多類數據。然而,從數據挖掘的角度來看,少數群體往往帶有更重要并且有用的信息,因此,挖掘預測這些少類樣本具有重大的意義。
近年,研究者通過對數據進行采樣使得樣本達到人工平衡狀態,從而進行預測模型的學習。其中,過采樣是處理數據不平衡問題的一種很有效的方法,其通過復制或合成樣本的方式來解決這個問題,以平衡多數類和少數類樣本之間的分布。但是,對少類樣本進行復制或者減少一些大類樣本,這樣前者會造成過擬合,后者在刪除樣本時會導致一些重要的信息被遺漏。
現有的過采樣方法包括ADASYN算法、SMOTE算法、Borderline-SMOTE算法等。其中,使用SMOTE算法,計算樣本之間的距離合成新的樣本,以進行擴增數據,但是采樣點是線性采樣,采樣的分布性不夠廣。由于現有方法僅基于樣本之間的距離對所有樣本進行無區別采樣,沒有考慮到同類樣本之間的數據特性,這樣會導致采樣后樣本邊界模糊甚至重疊,導致預測精度降低,還會影響分析結果。因此,對于過采樣的方法仍存在很大改進空間。
因此,有必要提供一種改進了SMOTE算法的過采樣方法。
發明內容
為了進一步優化采樣方法,本發明提供了一種基于SMOTE算法的過采樣方法,用于金融風險評估或預測,包括:獲取歷史樣本數據集,確定正、負樣本及其對應數量;確定多數類樣本數據和少數類樣本數據,并進行數據向量化處理;使用離異點監測方法,從所述少數類樣本數據集中篩選目標樣本數據;基于SMOTE算法,對所述目標樣本數據進行過采樣,以生成特定數量的新樣本數據;根據所生成的新樣本數據和原始的少數類樣本數據,得到擴增后的少數類樣本數據集。
優選地,還包括:使用所述歷史樣本數據集和所述合成后的少數類樣本數據,建立訓練數據集,所述訓練數據集包括用戶數據和金融風險表現數據;構建金融風險預測模型,使用所述訓練數據集訓練該金融風險預測模型,以計算目標用戶的金融風險評估值。
優選地,所述使用離異點監測方法,篩選目標樣本數據包括:使用離異點監測方法,對向量化后的少數類樣本數據進行監測,繪制每一個維度數據的箱線圖;基于各箱線圖,判斷所述少數類樣本數據中的維度異常點或維度噪聲點,以生成新樣本數據:,其中,為新樣本;為所屬的少數類數據集的中心點;為所屬的少數類數據集中選擇的近鄰點或邊界點;為0~1之間的測隨數。
優選地,還包括:對所有少數類樣本數據中對應的同一維度上的維度數據進行升序排序處理;計算四分位距IQR值,以確定第一判斷閾值和第二判斷閾值,該第一判斷閾值為上四分位+1.5IQR,該第二判斷閾值為下四分位-1.5IQR。
優選地,還包括:判斷同一維度上的維度數據是否大于所述第一判斷閾值或者小于所述第二判斷閾值;將大于所述第一判斷閾值的維度數據和小于所述第二判斷閾值的維度數據,判斷為維度異常點,以將具有所述維度異常點的樣本數據作為目標樣本數據,以生成新樣本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淇瑀信息科技有限公司,未經北京淇瑀信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011216546.2/2.html,轉載請聲明來源鉆瓜專利網。





