[發明專利]基于K-Means算法的數據聚類方法和裝置有效
| 申請號: | 201610255527.8 | 申請日: | 2016-04-21 |
| 公開(公告)號: | CN107305637B | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 胡斐然;王楠楠;曹俊 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 means 算法 數據 方法 裝置 | ||
本發明公開了一種基于K?Means算法的數據聚類方法和裝置,屬于計算機技術領域。方法包括:聚類服務器接收聚類請求,所述聚類請求包括最大計算量、類別數量K和待聚類的數據集;聚類服務器根據最大計算量,確定最大計算量對應的調整因子;并從數據集中隨機選擇一個數據;聚類服務器根據調整因子和隨機選擇的數據,從數據集中選擇K?1個數據,隨機選擇的數據和K?1個數據構成數據集的K個初始聚類中心;聚類服務器根據這K個初始聚類中心,對數據集中的N個數據進行聚類。本發明可以根據最大計算量自動調整聚類效率,從而可以提高聚類效率。
技術領域
本發明涉及計算機技術領域,特別涉及一種基于K-Means算法的數據聚類方法和裝置。
背景技術
K-Means算法是最為經典的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,這兩個對象相似度就越大。
基于K-means算法對數據進行聚類的過程可以為:將待分類的數據組成一個數據集以及指定所要分成的類別數目K,從數據集中隨機選擇K個數據作為K個類別的初始聚類中心,對于數據集中除K個初始聚類中心之外的每個數據,分別計算該數據與K個初始聚類中心中的每個初始聚類中心之間的距離,并將該數據歸到與該數據距離最近的初始聚類中心對應的類別中,然后根據K個類別中包括的數據,重新計算K個類別的新的聚類中心,然后將數據集中的數據重新進行分類,直到K個類別中的每個類別的相鄰兩次聚類中心之間的距離在預設距離內。
現有技術至少存在如下技術問題:
由于K個類別的初始聚類中心是隨機選擇的,因此,當K較大和/或數據集中包括的數據較多,計算量會增大,導致聚類效率低。
發明內容
為了解決現有技術的問題,本發明提供了一種基于K-Means算法的數據聚類方法和裝置。技術方案如下:
本發明的第一方面,提供了一種計算設備,所述計算設備用于將待處理的數據集包括的N個數據聚類至K個類別中,所述N為大于K的整數,所述K為預設的類別數量且為大于或等于2的整數,K個類別中的每個類別對應一個初始聚類中心;所述計算設備包括通信接口、處理器和存儲器,所述通信接口分別與所述處理器和存儲器建立通信連接,所述處理器與所述存儲器建立通信連接;
所述通信接口,用于接收聚類請求,所述聚類請求包括最大計算量、所述K和所述數據集;
所述存儲器,用于存儲所述最大計算量、所述K和所述數據集;
所述存儲器,還用于存儲程序指令;
所述處理器,用于讀取所述存儲器中的程序指令,以執行以下的步驟;
所述處理器,還用于根據所述最大計算量,確定所述最大計算量對應的調整因子;
所述處理器,還用于從所述存儲器中獲取所述數據集,并從所述數據集中隨機選擇一個數據;
所述處理器,還用于根據所述調整因子和所述隨機選擇的數據,從所述數據集中選擇K-1個數據,所述隨機選擇的數據和所述K-1個數據構成所述數據集的K個初始聚類中心;
所述處理器,還用于根據所述K個初始聚類中心,對所述數據集中的N個數據進行聚類。
在本發明實施例中,由于根據最大計算量對應的調整因子以及隨機選擇的數據,選擇K-1個數據,隨機選擇的數據和K-1個數據構成數據集的K個初始聚類中心,因此,本發明可以根據最大計算量自動調整聚類效率,從而可以提高聚類效率。
結合第一方面,在第一方面的第一種實現方式中,所述聚類請求中還包括所述數據集的訓練次數和數據大小;
所述處理器,用于根據所述最大計算量,確定所述最大計算量對應的調整因子,具體可以通過如下步驟實現:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610255527.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





