[發明專利]一種數據分類方法和裝置在審
| 申請號: | 201611264188.6 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN108268526A | 公開(公告)日: | 2018-07-10 |
| 發明(設計)人: | 李智偉;李長空;杜建鳳;趙偉;焦丙樂 | 申請(專利權)人: | 中國移動通信集團北京有限公司;中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100007 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 數據分類 聚類結果 方法和裝置 評價指標 樣本數據 類簇 預設 集合 數據分類算法 預處理 結果準確性 分類樣本 數據集合 | ||
本發明公開了一種數據分類方法和裝置,用以提高數據分類結果準確性。所述數據分類方法,包括:獲取預處理后的待分類樣本數據集合;針對預設聚類數的取值范圍中包含的每一聚類數,利用預設的數據分類算法對所述樣本數據集合進行聚類得到相應數量的類簇;以及針對每一聚類數,確定該聚類數對應的聚類結果評價指標值;確定利用聚類結果評價指標值最高的聚類數對所述樣本數據集合進行聚類得到的類簇為聚類結果。
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種數據分類方法和裝置。
背景技術
現有的電信用戶分類過程如圖1所示,包括以下幾個步驟:數據收集、屬性選擇、數據預處理、聚類分析、模型調整、營銷策略,這幾個步驟形成一個閉環,通過不斷的優化數據來提高用戶分類結果的準確性。
上述分類方法中,聚類分析為核心模塊,僅根據在數據中發現的對象及其之間的關系,將數據對象分組,使得組內的對象間有較高相似度,不同組中的對象有較高的差異度。當前主流的數據分析工具(如SPSS)和數據挖掘建模平臺(如TipDM),大多采用K-means算法實現,算法描述如下:
輸入:樣本數據集X={x1,x2,x3,…,xn},期望劃分的類簇數目k。
輸出:滿足終止條件的k個簇。算法實施的具體流程如下:
開始(Begin):
在數據集X中隨機選取k個初始聚類中心,表示為其中,上標表示迭代次數,為了便于描述以下記為p。
重復(Repeat)如下步驟:
1.對任意xj∈X,若則將xj指派到所代表的類簇中;
2.重新計算每個類簇的聚類中心,即其中,mi為聚類Ci中的樣本點數。
直到滿足以下條件(Until):
或最小。
在K-means算法中,dist(xj,ci)表示樣本點xj與聚類中心點ci之間的歐式距離,SSE為簇內誤差平方和。K-means算法的實質就是通過重復迭代得到k個最優聚類中心,并將其他樣本點指派到離它最近的聚類中心,使簇內誤差平方和SSE最小的過程。
現有的分類方法中,需要預先輸入期望劃分的類簇的數目k,而在實際應用中,k是未知的,不準確的k值會導致聚類質量下降。
發明內容
本發明實施例提供了一種數據分類方法和裝置,用以提高數據分類結果準確性。
本發明實施例提供一種數據分類方法,包括:
獲取預處理后的待分類樣本數據集合;
針對預設聚類數的取值范圍中包含的每一聚類數,利用預設的數據分類算法對所述樣本數據集合進行聚類得到相應數量的類簇;以及
針對每一聚類數,確定該聚類數對應的聚類結果評價指標值;
確定利用聚類結果評價指標值最高的聚類數對所述樣本數據集合進行聚類得到的類簇為聚類結果。
本發明實施例提供一種數據分類裝置,包括:
獲取單元,用于獲取預處理后的待分類樣本數據集合;
聚類單元,用于針對預設聚類數的取值范圍中包含的每一聚類數,利用預設的數據分類算法將所述樣本數據集合聚類為相應數量的類簇;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團北京有限公司;中國移動通信集團公司,未經中國移動通信集團北京有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611264188.6/2.html,轉載請聲明來源鉆瓜專利網。





