[發明專利]一種數據的聚類方法在審
| 申請號: | 201910539920.3 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110232420A | 公開(公告)日: | 2019-09-13 |
| 發明(設計)人: | 王偉;郭亮;儲澤楠;王雅淇;常慶麗;趙凱;韓毅 | 申請(專利權)人: | 安陽工學院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 安陽金泰專利代理事務所(普通合伙) 41150 | 代理人: | 王暉 |
| 地址: | 455000 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 算法 數據集 聚類 算法預處理 聚類分析 去噪算法 數據聚類 異常數據 校驗 光滑性 樣本集 噪聲點 集合 預測 保證 | ||
本發明專利公開了一種數據聚類方法,首先采用BP神經網絡利用完整的數據集作為樣本集來進行訓練,進行缺失屬性值的預測補全。然后對異常數據去噪算法會根據補全的數據,采用K?means算法進行初始算法聚類,找出落在簇集合之外的離群點,然后在用BP神經網絡對離群點進行校驗,判斷是否是噪聲點,保證數據的光滑性。最后根據前兩步的算法預處理后的數據集進行K?means算法進行聚類分析。本方法比原始的算法精確度有很大提高。
技術領域
本發明涉及數據處理,特別涉及一種數據的聚類方法,屬于數據處理技術領域。
背景技術
數據的聚類方法常采用傳統的K-means算法,而傳統的K-means算法是“無監督學習”算法,即對未標記的數據集進行聚類分析。但是隨著互聯網的發展,數據的種類越來越復雜,收集數據的手段越來越多,通過各種手段和途徑得到數據集,難免造成數據的不統一,和數據的屬性缺失問題,數據采集異常等問題,采用傳統的K-means對于這些屬性缺少和采集異常的數據會舍棄掉,破壞了數據的完整性,從而會影響到算法的精度和可靠性,針對這樣的一些問題需要一種可靠的數據的聚類方法。
發明內容
本發明的目的在于克服目前的數據聚類中采用傳統的K-means算法存在的上述問題,提供一種數據的聚類方法。
為實現本發明的目的,采用了下述的技術方案:一種數據的聚類方法,依次通過以下算法對數據聚類:屬性缺失補全算法、異常數據去噪算法、修復后的數據聚類算法,其中:
屬性缺失補全算法采用BP神經網絡利用完整的數據集作為樣本集來進行訓練,進行缺失屬性值的預測補全,步驟如下:
輸入:樣本集D=;
輸出:樣本集B=;
具體的處理步驟如下:
1.1掃描數據集一遍,找出數據集的記錄數記做N,以及數據集中屬性不完整的數據集記做Q=;
1.2通過判斷N的大小,如果N是大于100000條記錄的數據,那么隨機選取20%作為神經網絡的訓練樣本,如果N是小于等于100000條記錄的數據,則選取60%的數據集作為訓練樣本集;
1.3構造三層BP神經網絡模型,分別為輸入層,隱含層,和輸出層;
1.4網絡設置S型傳遞函數如下:
1.5設置反誤差輸出來不斷調節網絡權值和閾值使誤差函數E達到極小,其中誤差函數E設置函數如下:
其中ti為期望輸出;Qi為網絡的計算輸出;
1.6根據第二步中選取的所有樣本集,進行網絡的建模,該模型根據數據集的屬性作為輸入,輸出的節點個數設置為1,隱含層的設計使用經驗公式:
其中m為輸入層神經元個數,n為輸出層神經元個數,b為[1,10]之間的常數;本算法中設置b=3;
1.7網絡隱層和輸出層激勵函數分別為tansig和logsig函數,網絡訓練函數為traingdx,網絡性能函數為mse,網絡迭代次數epochs為50000次,期望誤差goal為0.000000001,學習速率lr為0.01;
1.8根據上述步驟網絡模型的設置構造好網絡模型,進行模型的訓練并以此對
Q=中的缺失數據集進行預測,構造成完整的數據集記做B=;
異常數據去噪算法步驟如下:
2.1從步驟1.8中得到完整的數據集B=,對數據采用K-means算法進行初始算法聚類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安陽工學院,未經安陽工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910539920.3/2.html,轉載請聲明來源鉆瓜專利網。





