[發明專利]一種基于密度聚類的非均衡數據集的均衡化方法及裝置在審
| 申請號: | 201910496790.X | 申請日: | 2019-06-10 |
| 公開(公告)號: | CN110298451A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 顧凌云;謝旻旗;段灣;王存偉;張濤;羅雨晨;張陽;喬韻如;黃海濤;馮杰;王震宇;周軒;潘峻 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20 |
| 代理公司: | 常州佰業騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 滕詣迪 |
| 地址: | 200120 上海市上海自*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本點 數據集 密度聚類 非均衡 樣本 均衡化 聚類 合成樣本 均衡結果 剔除 | ||
1.一種基于密度聚類的非均衡數據集的均衡化方法,其特征在于,包括:
獲取非均衡數據集,確定少數類樣本點的數據集和多數類樣本點的數據集;
對所述少數類樣本的數據集進行密度聚類,根據所述少數類樣本點的聚類情況,對所述少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點;
對所述多數類樣本的數據集進行密度聚類,根據所述多數類樣本點的聚類情況,對所述多數類樣本進行剔除樣本點的操作,得到處理后的多數類樣本點;
根據所述處理后的少數類樣本點和所述處理后的多數類樣本點得到所述非均衡數據集的均衡結果。
2.根據權利要求1所述的方法,其特征在于,所述對所述少數類樣本的數據集進行密度聚類,根據所述少數類樣本點的聚類情況,對所述少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點包括:
對所述少數類樣本的數據集進行密度聚類,得到少數類聚類簇;
判斷所述少數類聚類簇是否為噪聲點集合;
如果是噪聲點集合,則隨機選取樣本點,對所述樣本點各屬性隨機擾動,生成一個樣本點;
如果不是噪聲點集合,則隨機選取兩個樣本點,判斷所述兩個樣本點是否為兩個核心對象樣本點;
如果是兩個核心對象樣本點,則所述兩個樣本點根據隨機向量進行加權,在所述兩個核心對象樣本點附近各生成一個樣本點;
如果不是兩個核心對象樣本點,則判斷是否一個為核心對象樣本點,另一個為邊緣點;
如果一個為核心對象樣本點,另一個為邊緣點,則所述兩個樣本點根據隨機向量加權,在核心對象樣本點附近生成一個樣本;
如果不是一個為核心對象樣本點,另一個為邊緣點,則返回執行隨機選取兩個樣本點的操作。
3.根據權利要求1所述的方法,其特征在于,所述對所述多數類樣本的數據集進行密度聚類,根據所述多數類樣本點的聚類情況,對所述多數類樣本進行剔除樣本點的操作,得到處理后的多數類樣本點包括:
對所述多數類樣本的數據集進行密度聚類,得到多數類聚類簇;
判斷所述多數類聚類簇是否為噪聲點集合;
如果不是噪聲點集合,則隨機選取兩個樣本點,判斷所述兩個樣本點是否一個為核心對象樣本點,另一個為邊緣點;
如果一個為核心對象樣本點,另一個為邊緣點,則剔除所述核心對象樣本點。
4.根據權利要求2所述的方法,其特征在于,還包括:
將生成的樣本點標記為少數類樣本點。
5.一種基于密度聚類的非均衡數據集的均衡化裝置,其特征在于,包括:
獲取模塊,用于獲取非均衡數據集,確定少數類樣本點的數據集和多數類樣本點的數據集;
合成模塊,用于對所述少數類樣本的數據集進行密度聚類,根據所述少數類樣本點的聚類情況,對所述少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點;
剔除模塊,用于對所述多數類樣本的數據集進行密度聚類,根據所述多數類樣本點的聚類情況,對所述多數類樣本進行剔除樣本點的操作,得到處理后的多數類樣本點;
均衡模塊,用于根據所述處理后的少數類樣本點和所述處理后的多數類樣本點得到所述非均衡數據集的均衡結果。
6.根據權利要求5所述的裝置,其特征在于,所述合成模塊通過如下方式對所述少數類樣本的數據集進行密度聚類,根據所述少數類樣本點的聚類情況,對所述少數類樣本進行合成樣本點的操作,得到處理后的少數類樣本點:
所述合成模塊,具體用于對所述少數類樣本的數據集進行密度聚類,得到少數類聚類簇;判斷所述少數類聚類簇是否為噪聲點集合;如果是噪聲點集合,則隨機選取樣本點,對所述樣本點各屬性隨機擾動,生成一個樣本點;如果不是噪聲點集合,則隨機選取兩個樣本點,判斷所述兩個樣本點是否為兩個核心對象樣本點;如果是兩個核心對象樣本點,則所述兩個樣本點根據隨機向量進行加權,在所述兩個核心對象樣本點附近各生成一個樣本點;如果不是兩個核心對象樣本點,則判斷是否一個為核心對象樣本點,另一個為邊緣點;如果一個為核心對象樣本點,另一個為邊緣點,則所述兩個樣本點根據隨機向量加權,在核心對象樣本點附近生成一個樣本;如果不是一個為核心對象樣本點,另一個為邊緣點,則返回執行隨機選取兩個樣本點的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910496790.X/1.html,轉載請聲明來源鉆瓜專利網。





