[發明專利]一種數據聚類方法及裝置在審
| 申請號: | 201610096681.5 | 申請日: | 2016-02-22 |
| 公開(公告)號: | CN107103329A | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | 毛仁歆;燕鵬舉 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京博思佳知識產權代理有限公司11415 | 代理人: | 林祥 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 方法 裝置 | ||
技術領域
本申請涉及數據分析技術領域,尤其涉及一種數據聚類方法及裝置。
背景技術
數據分析是指用適當的統計方法對數據集合進行分析,從而提取有用信息和形成結論的過程。在大數據時代,如何從海量的信息數據中更有效地提取出有用信息已經成為一個重點研究課題。數據分析的一種實際應用需求是:根據數據的特征,從大量數據對應的實體中篩選出一些異常的實體,而這些異常實體往往會存在一定的意義,例如:通過對不同終端對服務器的訪問行為數據進行篩選,可以從大量終端中識別出具有網絡攻擊行為的終端;通過對不同商戶的交易行為數據進行篩選,可以從大量商戶中識別出一些優質商戶;等等。
在數據篩選的初始階段,篩選的標準往往是不確定的,有時甚至連篩選的目的都不明確,在這種需求背景下,聚類成為數據篩選的重要手段,在具體篩選標準不明確的情況下,聚類結果往往能夠直接滿足篩選需求,或者為數據分析人員提供重要的指導意義。
目前,聚類算法有很多種,例如Kmeans、DBSCAN、譜聚類、SOM等等,但是這些聚類算法均要求數據樣本之間的距離是可度量的,而在實際的數據分析過程中,一條信息數據可能包含多種類型的特征屬性,例如數值類、布爾類、文本類、時間類等等。應用現有的聚類算法,需要對各類特征屬性取值的距離進行統一定義,如果定義不合適則需要反復調整,特征的數量、種類越多,調整的工作量就越大。對于數據分析人員而言,調整定義特征屬性的取值距離往往需要消耗大量的時間和精力成本,這也對整體的數據篩選處理效率造成了較大的影響。
發明內容
針對上述技術問題,本申請提供一種數據聚類方法及裝置,技術方案如下:
根據本申請的第一方面,提供一種數據聚類方法,該方法包括:
對待處理數據樣本集的連續變量特征取值進行離散化處理;
根據離散化處理結果,利用預設的相似度算法計算任意兩個數據樣本i和j之間的相似度Sij(i≠j),其中i、j的取值包括不大于N的所有自然數,N為所述數據樣本集中的數據樣本總數;
根據任意兩個數據樣本i和j之間的相似度Sij,利用預設的聚類算法對所述N個數據樣本進行聚類。
根據本申請的第二方面,提供一種數據聚類裝置,該裝置包括:
離散化處理模塊,用于對待處理數據樣本集的連續變量特征取值進行離散化處理;
相似度計算模塊,用于根據離散化處理結果,利用預設的相似度算法計算任意兩個數據樣本i和j之間的相似度Sij(i≠j),其中i、j的取值包括不大于N的所有自然數,N為所述數據樣本集中的數據樣本總數;
聚類模塊,用于根據任意兩個數據樣本i和j之間的相似度Sij,利用預設的聚類算法對所述N個數據樣本進行聚類。
應用本申請所提供的技術方案,在對數據集進行聚類時,僅考慮特征的取值的離散性,無需考慮數據各個特征的具體類型,對于連續變量特征,通過對其特征取值進行離散化處理,使其與離散變量特征能夠采用統一的標準進行度量,因此本申請方案對于任意的信息數據集,無論有多少個特征,特征的具體類型如何,均能夠自動計算出數據樣本的距離并進行聚類,從而有效地降低數據篩選過程中的聚類調試成本消耗,提高數據篩選的處理效率。
應當理解的是,以上的一般描述和后文的細節描述僅是示例性和解釋性的,并不能限制本申請。
附圖說明
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
圖1是本申請的數據聚類方法的流程示意圖;
圖2是本申請的數據聚類裝置的結構示意圖。
具體實施方式
為了使本領域技術人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行詳細地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本申請保護的范圍。
圖1所示,為本申請提供的數據聚類方法的流程圖,該方法可以包括以下步驟:
S101,對待處理數據樣本集的連續變量特征取值進行離散化處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096681.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于圖像輪廓特征的目標識別方法
- 下一篇:一種指示燈狀態識別方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





