[發明專利]基于分布式樣本篩選的kmeans日志分類方法和裝置在審
| 申請號: | 202310721373.7 | 申請日: | 2023-06-16 |
| 公開(公告)號: | CN116610987A | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 程永龍;王鈺;范淑君;王睿 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F18/24 | 分類號: | G06F18/24;G06F18/23213;G06F16/335;G06F16/35 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 陳洪艷;臧建明 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 樣本 篩選 kmeans 日志 分類 方法 裝置 | ||
本申請提供一種基于分布式樣本篩選的kmeans日志分類方法和裝置,涉及大數據領域。該方法包括:獲取N個日志樣本集合和對應的副本,確定出每個日志樣本集合中的K個中心,對該副本中的日志樣本進行簇劃分,得到該副本每個簇的簇中心;將所有副本中簇的簇中心組成初始中心集合,確定其中各個簇中心之間的余弦距離,對簇中心進行融合處理得到第一中心集合;根據第一中心集合中的簇中心與該日志樣本集合中的K個中心的余弦距離,計算得到K個最小距離并確定該日志樣本集合的等級標簽;基于等級標簽從所有日志樣本集合中抽取目標數量的日志樣本,從中確定出K個質心,進行Kmeans聚類。本申請提高了聚類算法的收斂速度和聚類效果。
技術領域
本申請涉大數據技術領域,尤其涉及一種基于分布式樣本篩選的kmeans日志分類方法和裝置。
背景技術
日志聚類旨在找出相似的日志,在分析各用戶在使用應用程序過程中發生的錯誤問題,將錯誤類型相同的日志劃分到一個組里,然后分門別類的去挖掘用戶使用的習慣的可能存在的錯誤方法,對后續遇到類似針對方法給出建議。
目前現有技術通常是采用k均值聚類算法(k-means?clustering?algorithm,簡稱kmeans聚類算法)進行文本聚類,其步驟是,預將數據分為K組,則隨機選取K個對象作為初始的聚類中心,然后計算每個對象與各個種子聚類中心之間的距離,把每個對象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對象就代表一個聚類。每分配一個樣本,聚類的聚類中心會根據聚類中現有的對象被重新計算。這個過程將不斷重復直到滿足某個終止條件。
但是,現有的kmeans聚類算法在初始化階段進行隨機抽取初始質心,這樣會導致抽取的質心過于分散或集中,不是特別均勻,從而使聚類收斂速度緩慢且聚類效果不好。
發明內容
本申請提供一種基于分布式樣本篩選的kmeans日志分類方法和裝置,用以解決目前聚類算法收斂速度慢,聚類效果差的問題。
第一方面,本申請提供一種基于分布式樣本篩選的kmeans日志分類方法,包括:
獲取N個日志樣本集合和每個日志樣本集合對應的副本,確定出每個日志樣本集合中的K個中心,所述日志樣本集合中包括至少一個日志樣本,所述副本與對應的日志樣本集合中的日志樣本相同,N,K為正整數;
根據每個日志樣本集合中的K個中心,對該日志樣本集合的副本中的日志樣本進行簇劃分,得到該副本的K個簇和每個簇的簇中心;
將所有副本中簇的簇中心組成初始中心集合,根據該初始中心集合中各個簇中心之間的余弦距離,對簇中心進行融合處理,直到滿足預設融合結束條件,得到第一中心集合;
根據第一中心集合中的簇中心與該日志樣本集合中的K個中心的余弦距離,計算得到該日志樣本集合的K個最小距離;
根據該日志樣本集合的K個最小距離,確定該日志樣本集合的等級標簽;
根據每個日志樣本集合的等級標簽,從所有日志樣本集合中抽取目標數量的日志樣本,組成樣本數據集;
從所述樣本數據集中確定出K個質心,進行Kmeans聚類。
第二方面,本申請提供一種基于分布式樣本篩選的kmeans日志分類裝置,包括:
獲取模塊,用于獲取N個日志樣本集合和每個日志樣本集合對應的副本,確定出每個日志樣本集合中的K個中心,所述日志樣本集合中包括至少一個日志樣本,所述副本與對應的日志樣本集合中的日志樣本相同,N,K為正整數;
中心確定模塊,用于根據每個日志樣本集合中的K個中心,對該日志樣本集合的副本中的日志樣本進行簇劃分,得到該副本的K個簇和每個簇的簇中心;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310721373.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聯供系統及其控制方法
- 下一篇:發動機停機方法、裝置、電子設備及車輛





