[發明專利]一種數據挖掘系統中數據聚類的方法、系統及裝置有效
| 申請號: | 201010102976.1 | 申請日: | 2010-01-28 |
| 公開(公告)號: | CN102141988A | 公開(公告)日: | 2011-08-03 |
| 發明(設計)人: | 高丹;徐萌;鄧超;羅治國;周文輝;孫少陵;陶濤;何鴻凌;何清;趙衛中;馬慧芳 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 挖掘 系統 方法 裝置 | ||
1.一種數據挖掘系統中數據聚類的方法,其特征在于,包括:
A、主控節點對數據對象進行分塊,將分塊后的數據對象分發給至少兩個計算節點;
B、以串行方式或并行方式控制所述每個計算節點執行:
計算利用保存的數據對象中的非中心點對象分別替換確定的設定個中心點對象后對應的替換代價;
C、所述主控節點獲取所述每個計算節點的執行結果,并判斷獲取的執行結果中是否存在小于零的替換代價;
若是,確定替換同一中心點對象的多個非中心點對象中具有小于零且最小替換代價的非中心點對象,利用確定的所述非中心點對象替換所述中心點對象,并返回步驟B;
若否,則將當前各中心點對象及其對應簇中包括的數據對象確定為最終聚類結果并結束。
2.如權利要求1所述的方法,其特征在于,上述步驟B中,計算利用保存的數據對象中的非中心點對象分別替換確定的設定個中心點對象后對應的替換代價,包括:
針對所述保存的數據對象中每個第一非中心點對象,以串行方式或并行方式執行:
B1、選擇一個未被選擇過的第一中心點對象,以串行方式或并行方式執行步驟B11至步驟B14:
B11、從保存的數據對象中除所述第一非中心點對象以外的非中心點對象中選擇一個未被選擇過的第二非中心點對象;
B12、計算選擇的所述第二非中心點對象分別與所述第一非中心點對象以及確定的設定個中心點對象中除所述第一中心點對象以外的中心點對象的距離;
B13、計算所述距離中的最小距離減去所述第二非中心點對象與其當前歸屬的簇對應中心點對象的距離得到的差值;
B14、判斷保存的數據對象中除所述第一非中心點對象以外的非中心點對象是否均被選擇過;
若否,返回步驟B11;
若是,將通過所述步驟B13計算得到的差值相加得到所述第一非中心點對象替換所述第一中心點對象的替換代價,并執行步驟B2;
B2、判斷保存的數據對象中所有中心點對象是否均被選擇過;
若否,返回步驟B1;
若是,結束。
3.如權利要求1所述的方法,其特征在于,所述步驟C中,確定替換同一中心點對象的多個非中心點對象中具有小于零且最小替換代價的非中心點對象,利用所述非中心點對象替換所述中心點對象,包括:
根據獲取的執行結果中各替換代價對應的中心點對象,分別將對應同一中心點對象的替換代價歸為一類,并針對所述每一類替換代價以串行方式或并行方式執行:
利用當前類替換代價中具有小于零且最小替換代價的非中心點對象替換當前類對應的中心點對象。
4.如權利要求1所述的方法,其特征在于,在執行完所述步驟A后,還包括:
從所述待處理數據中選擇設定個數據對象作為中心點對象,并以串行方式或并行方式控制所述各計算節點執行:
計算保存的各數據對象到所述設定個中心點對象的距離;
將所述各數據對象歸類至與其具有最小距離的中心點對象所表示的簇中。
5.如權利要求4所述的方法,其特征在于,將所述各數據對象歸類至與其具有最小距離的中心點對象所表示的簇中,包括:
對所述各數據對象添加用于表示與其具有最小距離的中心點對象所表示的簇的標識。
6.一種數據挖掘系統中數據聚類的系統,其特征在于,包括控制節點以及至少兩個計算節點;其中,
所述控制節點,用于對數據對象進行分塊,將分塊后的數據對象分發給所述至少兩個計算節點,并以串行方式或并行方式控制所述每個計算節點執行:計算利用保存的數據對象中的非中心點對象分別替換確定的設定個中心點對象后對應的替換代價;以及,獲取所述每個計算節點的執行結果,并判斷獲取的執行結果中是否存在小于零的替換代價;若是,確定替換同一中心點對象的多個非中心點對象中具有小于零且最小替換代價的非中心點對象,利用所述非中心點對象替換所述中心點對象,并繼續以串行方式或并行方式控制所述每個計算節點執行:計算利用保存的數據對象中的非中心點對象分別替換確定的設定個中心點對象后對應的替換代價,直到所述每個計算節點的執行結果中不存在小于零的替換代價;若否,則將當前各中心點對象及其對應簇中包括的數據對象確定為最終聚類結果并結束;
所述計算節點,用于根據所述控制節點的控制,計算利用保存的數據對象中的非中心點對象分別替換確定的設定個中心點對象后對應的替換代價。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010102976.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電源模塊及網絡設備
- 下一篇:一種圖形數據庫聯機事務數據恢復的方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





