[發(fā)明專利]一種數(shù)據(jù)聚類的方法和裝置有效
| 申請?zhí)枺?/td> | 202010567970.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN113821630B | 公開(公告)日: | 2023-10-17 |
| 發(fā)明(設計)人: | 侯曉坤;林榆旺 | 申請(專利權)人: | 菜鳥智能物流控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/2455;G06F18/22;G06Q40/12 |
| 代理公司: | 北京君以信知識產(chǎn)權代理有限公司 11789 | 代理人: | 錢秀茹 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 方法 裝置 | ||
本發(fā)明實施例提供了一種數(shù)據(jù)聚類的方法和裝置,其中,所述方法包括:獲取待聚類的目標日志數(shù)據(jù);判斷是否查找到與所述目標日志數(shù)據(jù)相似的第一日志數(shù)據(jù);在查找到所述第一日志數(shù)據(jù)時,根據(jù)所述第一日志數(shù)據(jù)確定第一聚類信息;按照所述第一聚類信息,對所述目標日志數(shù)據(jù)進行聚類。通過本發(fā)明實施例,實現(xiàn)了對日志數(shù)據(jù)聚類的優(yōu)化,由于設置了根據(jù)第一次查找到相似的日志數(shù)據(jù)進行聚類,保證了聚類結果的一致性,能夠兼容于存在并發(fā)的分布式系統(tǒng),且無需計算與得到的多個聚類簇之間的相似度,還能夠減少數(shù)據(jù)聚類所需計算的次數(shù),降低了算法的復雜度,節(jié)省了時間和資源,提升了數(shù)據(jù)聚類的實時性,提升了系統(tǒng)的吞吐量。
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,特別是涉及一種數(shù)據(jù)聚類的方法和裝置。
背景技術
隨著科學技術的發(fā)展,計算機系統(tǒng)涉及到數(shù)據(jù)量越來越大,如日志數(shù)據(jù),對大量數(shù)據(jù)進行數(shù)據(jù)聚類日趨重要。
在現(xiàn)有技術中,對于大量數(shù)據(jù)的處理,通常需要采用計算機集群,即分布式系統(tǒng),而分布式系統(tǒng)存在并發(fā)的問題,由于分布式系統(tǒng)的處理順序不同或并發(fā)處理,可能導致不屬于同類別的數(shù)據(jù)歸入至同一聚類簇中或相同類別的數(shù)據(jù)歸入至不同的聚類簇中,難以保證聚類結果的一致性。
而且,對于大量數(shù)據(jù)的處理,通常采用離線計算或流式計算的方式,且在數(shù)據(jù)聚類的過程中,通常需要計算新的數(shù)據(jù)與已得到的多個聚類簇之間的相似度,進而從中確定將要歸入的聚類簇,但這種方式需要進行大量的計算,耗費較多時間和資源,難以滿足實時性的需求。
發(fā)明內容
鑒于上述問題,提出了以便提供克服上述問題或者至少部分地解決上述問題的一種數(shù)據(jù)聚類的方法和裝置,包括:
一種數(shù)據(jù)聚類的方法,所述方法包括:
獲取待聚類的目標日志數(shù)據(jù);
判斷是否查找到與所述目標日志數(shù)據(jù)相似的第一日志數(shù)據(jù);
在查找到所述第一日志數(shù)據(jù)時,根據(jù)所述第一日志數(shù)據(jù)確定第一聚類信息;
按照所述第一聚類信息,對所述目標日志數(shù)據(jù)進行聚類。
可選地,所述在查找到所述第一日志數(shù)據(jù)時,根據(jù)所述第一日志數(shù)據(jù)確定第一聚類信息,包括:
在查找到所述第一日志數(shù)據(jù)時,確定所述第一日志數(shù)據(jù)對應的第二日志數(shù)據(jù);
判斷所述目標日志數(shù)據(jù)是否與所述第二日志數(shù)據(jù)相似;
在所述目標日志數(shù)據(jù)與所述第二日志數(shù)據(jù)相似時,確定所述第二日志數(shù)據(jù)所屬的聚類簇的聚類信息為第一聚類信息。
可選地,還包括:
在所述目標日志數(shù)據(jù)與所述第二日志數(shù)據(jù)相似時,建立所述目標日志數(shù)據(jù)和所述第二日志數(shù)據(jù)之間的相似關系。
可選地,還包括:
建立所述目標日志數(shù)據(jù)對應的節(jié)點;
按照所述目標日志數(shù)據(jù)和所述第二日志數(shù)據(jù)之間的相似關系,建立以所述目標日志數(shù)據(jù)對應的節(jié)點為起點的相似邊。
可選地,所述在查找到所述第一日志數(shù)據(jù)時,確定所述第一日志數(shù)據(jù)對應的第二日志數(shù)據(jù),包括:
在查找到所述第一日志數(shù)據(jù)時,按照預先建立的所述第一日志數(shù)據(jù)與其他日志數(shù)據(jù)之間的相似關系進行遞歸查找,得到第二日志數(shù)據(jù);其中,所述第二日志數(shù)據(jù)為所述遞歸查找的路徑中的根節(jié)點對應的數(shù)據(jù)。
可選地,還包括:
在所述遞歸查找的過程中,若檢測到存在環(huán)結構,則從所述遞歸查找的路徑中,確定目標節(jié)點;
將所述目標節(jié)點設置為所述遞歸查找的路徑中的根節(jié)點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于菜鳥智能物流控股有限公司,未經(jīng)菜鳥智能物流控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010567970.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





