[發明專利]用于數據聚類分組的方法、裝置、電子設備及可讀介質在審

申請號：	201710598005.2	申請日：	2017-07-20
公開（公告）號：	CN107358268A	公開（公告）日：	2017-11-17
發明（設計）人：	閆強;李愛華;葛勝利	申請（專利權）人：	北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司
主分類號：	G06K9/62	分類號：	G06K9/62
代理公司：	北京律智知識產權代理有限公司11438	代理人：	闞梓瑄,王衛忠
地址：	100195 北京市海淀區杏石口路6***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于數據分組方法裝置電子設備可讀介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及計算機信息處理領域，具體而言，涉及一種用于數據聚類分組的方法、裝置、電子設備及計算機可讀介質。

背景技術

數據聚類是數據挖掘中一種常規的技術，而且聚類的數據簇數往往和業務的粘合性很高。k-means：是最為經典的基于劃分的聚類方法，屬于硬聚類算法，是典型的基于原型的目標函數聚類方法的代表，它是數據點到原型的某種距離作為優化的目標函數，利用函數求極值的方法得到迭代運算的調整規則。K-means算法以歐式距離作為相似度測度，它是求對應某一初始聚類中心向量V最優分類，使得評價指標J最小。算法采用誤差平方和準則函數作為聚類準則函數。K-means算法基本思想是以空間k個點為中心進行聚類，對最靠近他們的對象歸類，通過迭代的方法，逐次更新各聚類中心的值，直至得到最好的聚類結果。

但常規的k-means使用了靜態的K值進行數據聚類，使得更本無法滿足實際的業務需求。首先，k值為靜態，但業務應用的業務數據往往為動態，隨時間會有變化，所以導致聚類效果很差，嚴重的影響線上使用其次，如果每次聚類前都進行k值的優化判斷，會導致線上的效率很差，影響業務應用。

因此，需要一種新的用于數據聚類分組的方法、裝置、電子設備及計算機可讀介質。

在所述背景技術部分公開的上述信息僅用于加強對本發明的背景的理解，因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。

發明內容

有鑒于此，本發明提供一種用于數據聚類分組的方法、裝置、電子設備及計算機可讀介質，能夠提高數據聚類分組的效率。

本發明的其他特性和優點將通過下面的詳細描述變得顯然，或部分地通過本發明的實踐而習得。

根據本發明的一方面，提出一種用于數據聚類分組的方法，該方法包括：獲取標準數據，標準數據包括時間信息；根據所述時間信息，歷史數據分布簇數確定當前數據分布簇數；根據當前數據分布簇數對標準數據進行聚類運算獲取中心點；以及根據中心點將標準數據進行分組。

在本公開的一種示例性實施例中，還包括：通過歷史標準數據獲取歷史數據分布簇數。

在本公開的一種示例性實施例中，通過歷史標準數據獲取歷史數據分布簇數，包括：按照預定的數據分布簇數對歷史標準數據進行預聚類處理；通過預聚類處理獲取輪廓系數；以及通過輪廓系數與預定規則獲取歷史數據分布簇數。

在本公開的一種示例性實施例中，通過輪廓系數與預定規則獲取歷史數據分布簇數，包括：獲取輪廓系數中的預定個極大值；將滿足預定條件的預定個極大值之一作為第一輪廓系數；以及通過第一輪廓系數與預定規則獲取歷史數據分布簇數。

在本公開的一種示例性實施例中，通過輪廓系數與預定規則獲取歷史數據分布簇數，包括：按照時間信息將歷史數據進行排序處理；通過輪廓系數與預定規則，分別獲取各個歷史時間內歷史數據分布簇數。

在本公開的一種示例性實施例中，獲取標準數據，包括：確定指標和指標值；根據指標和指標值獲取原始數據；以及將原始數據進行數據處理獲取標準數據。

在本公開的一種示例性實施例中，將原始數據進行數據處理獲取標準數據，包括：對原始數據進行離群點處理以獲取第一數據；對第一數據進行空值處理以獲取第二數據；以及對第二數據進行標準化數據以獲取標準數據。

在本公開的一種示例性實施例中，對第二數據進行標準化數據以獲取標準數據，包括如下公式：

其中，A為標準化數據，A₁為第二數據，A_p為第二數據的均值，A_E為第二數據的方差值。

在本公開的一種示例性實施例中，根據所述時間信息，歷史數據分布簇數確定當前數據分布簇數，包括：按照時間序列，通過歷史數據分布簇數確定當前數據分布簇數。

在本公開的一種示例性實施例中，根據所述時間信息，歷史數據分布簇數確定當前數據分布簇數，包括以下至少一者：通過均值法處理歷史數據分布簇數確定當前數據分布簇數；以及通過加權平均法處理歷史數據分布簇數確定當前數據分布簇數。

根據本發明的一方面，提出一種用于數據聚類分組的裝置，該裝置包括：數據模塊，用于獲取標準數據，標準數據包括時間信息；確值模塊，用于根據時間信息，通過歷史數據分布簇數確定當前數據分布簇數；聚類模塊，用于根據當前數據分布簇數對標準數據進行聚類運算獲取中心點；以及分組模塊，用于根據中心點將標準數據進行分組。

在本公開的一種示例性實施例中，還包括：儲值模塊，用于通過歷史標準數據獲取歷史數據分布簇數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司，未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710598005.2/2.html，轉載請聲明來源鉆瓜專利網。