[發明專利]一種提升異常數據挖掘篩選的方法在審
| 申請號: | 201911352941.0 | 申請日: | 2019-12-25 |
| 公開(公告)號: | CN111125470A | 公開(公告)日: | 2020-05-08 |
| 發明(設計)人: | 唐雪飛;張青龍;徐鑫;孫文昌;胡茂秋 | 申請(專利權)人: | 成都康賽信息技術有限公司 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/903 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 610054 四川省成都市成華區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提升 異常 數據 挖掘 篩選 方法 | ||
1.一種提升異常數據挖掘篩選的方法,其特征在于,包括:
A1、從業務數據庫中獲取數據集,所述數據集包括若干數據對象;
A2、采用傳統的聚類算法,對步驟A1所獲取的數據集進行聚類,得到初始化的簇與初始化的異常數據集;
A3、獲取當前輸入的新的數據對象與步驟A2所述各簇的核心對象的距離最小值;
A4、若步驟A3所計算的到的距離最小值小于設定的半徑,則將輸入的新的數據對象并入對應簇;否則輸入的新的數據對象加入異常數據集。
2.根據權利要求1所述的一種提升異常數據挖掘篩選的方法,其特征在于,步驟A2具體過程為:
A21、對于數據集中未被訪問的數據對象,且該數據對象未被歸入某個簇或被標記為異常數據,檢查其r鄰域,如果其r鄰域內包含的數據對象數目大于或等于Mindn,則建立新簇C,并將該數據對象及鄰域內包含的數據對象并入C中;
所述r為設定的半徑;
A22、如果C中存在未被處理的數據對象,檢查其r鄰域,如果其r鄰域內包含的數據對象大于或等于Mindn,將該數據對象及鄰域內包含的點并入C;
A23、重復步驟A22,直到C中的對象都分別處理過;
A24、若數據集中所有數據對象都被訪問過,則結束;否則返回步驟A21。
3.根據權利要求2所述的一種提升異常數據挖掘篩選的方法,其特征在于,所述設定半徑的確定過程為:
首先,確定一個簇中至少應包含的數據對象的數目Mindn;
然后,根據Mindn,計算每個數據對象與他的第Mindn個數據對象之間的距離K-dis;
其次,對該數據集中的每個數據對象按照其對應的K-dis從小到大排序;
最后,根據排序結果確定半徑。
4.根據權利要求3所述的一種提升異常數據挖掘篩選的方法,其特征在于,步驟A3所述核心對象為簇中所有聚類對象的均值。
5.根據權利要求4所述的一種提升異常數據挖掘篩選的方法,其特征在于,Mindn取值為步驟A1所述數據集中數據對象總數的10%。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都康賽信息技術有限公司,未經成都康賽信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911352941.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





