[發(fā)明專利]基于分布式樣本篩選的kmeans日志分類方法和裝置在審
| 申請?zhí)枺?/td> | 202310721373.7 | 申請日: | 2023-06-16 |
| 公開(公告)號: | CN116610987A | 公開(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計(jì))人: | 程永龍;王鈺;范淑君;王睿 | 申請(專利權(quán))人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F18/24 | 分類號: | G06F18/24;G06F18/23213;G06F16/335;G06F16/35 |
| 代理公司: | 北京同立鈞成知識(shí)產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 陳洪艷;臧建明 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 分布式 樣本 篩選 kmeans 日志 分類 方法 裝置 | ||
1.一種基于分布式樣本篩選的kmeans日志分類方法,其特征在于,包括:
獲取N個(gè)日志樣本集合和每個(gè)日志樣本集合對應(yīng)的副本,確定出每個(gè)日志樣本集合中的K個(gè)中心,所述日志樣本集合中包括至少一個(gè)日志樣本,所述副本與對應(yīng)的日志樣本集合中的日志樣本相同,N,K為正整數(shù);
根據(jù)每個(gè)日志樣本集合中的K個(gè)中心,對該日志樣本集合的副本中的日志樣本進(jìn)行簇劃分,得到該副本的K個(gè)簇和每個(gè)簇的簇中心;
將所有副本中簇的簇中心組成初始中心集合,根據(jù)該初始中心集合中各個(gè)簇中心之間的余弦距離,對簇中心進(jìn)行融合處理,直到滿足預(yù)設(shè)融合結(jié)束條件,得到第一中心集合;
根據(jù)第一中心集合中的簇中心與該日志樣本集合中的K個(gè)中心的余弦距離,計(jì)算得到該日志樣本集合的K個(gè)最小距離;
根據(jù)該日志樣本集合的K個(gè)最小距離,確定該日志樣本集合的等級標(biāo)簽;
根據(jù)每個(gè)日志樣本集合的等級標(biāo)簽,從所有日志樣本集合中抽取目標(biāo)數(shù)量的日志樣本,組成樣本數(shù)據(jù)集;
從所述樣本數(shù)據(jù)集中確定出K個(gè)質(zhì)心,進(jìn)行Kmeans聚類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該初始中心集合中各個(gè)簇中心之間的余弦距離,對簇中心進(jìn)行融合處理,直到滿足預(yù)設(shè)融合結(jié)束條件,得到第一中心集合,包括:
將初始中心集合中各個(gè)簇中心的余弦距離進(jìn)行對比,獲取余弦距離最近的第一簇中心和第二簇中心;
將所述第一簇中心和第二簇中心融合,作為新的簇中心,并計(jì)算當(dāng)前的初始中心集合中所有簇中心的總數(shù)量;
若所述總數(shù)量為K,則停止對簇中心進(jìn)行融合處理,得到所述第一中心集合;
若所述總數(shù)量不為K,則繼續(xù)融合得到新的簇中心。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述第一簇中心和第二簇中心融合,作為新的簇中心,包括:
Cnew=(C1+C2)/2
上式中,Cnew為新的簇中心,C1為第一簇中心,C2為第二簇中心。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)第一中心集合中的簇中心與該日志樣本集合中的K個(gè)中心的余弦距離,計(jì)算得到該日志樣本集合的K個(gè)最小距離,包括:
根據(jù)該日志樣本集合中的K個(gè)中心,從該日志樣本集合的副本中選取出第K個(gè)日志樣本,作為第K個(gè)元素;
根據(jù)該第K個(gè)元素,從該第一中心集合中獲取與該第K個(gè)元素對應(yīng)的目標(biāo)簇中心;
計(jì)算該目標(biāo)簇中心與該第K個(gè)元素的余弦距離,作為第K個(gè)最小距離。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)該第K個(gè)元素,從該第一中心集合中獲取與該第K個(gè)元素對應(yīng)的目標(biāo)簇中心,包括:
獲取所該第一中心集合中與該第K個(gè)元素余弦距離最近的簇中心,作為所述目標(biāo)簇中心。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)該日志樣本集合的K個(gè)最小距離,確定該日志樣本的等級標(biāo)簽,包括:
將該日志樣本集合的K個(gè)最小距離求和,得到該日志樣本集合對應(yīng)的距離累加和;
將所有日志樣本集合的距離累加和組成距離集合,并根據(jù)距離累加和的大小,對該距離集合中的距離累加和進(jìn)行排序;
根據(jù)每個(gè)距離累加和的排序順序,確定該距離累加和對應(yīng)的日志樣本集合的等級標(biāo)簽。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)每個(gè)日志樣本集合的等級標(biāo)簽,從所有日志樣本集合中抽取目標(biāo)數(shù)量的日志樣本,組成樣本數(shù)據(jù)集,包括:
從該日志樣本集合中抽取該等級標(biāo)簽對應(yīng)比例數(shù)量的日志樣本;
將從所有日志樣本集合中抽取出的日志樣本組成優(yōu)質(zhì)樣本集合,從該優(yōu)質(zhì)樣本集合中抽取目標(biāo)比例的日志樣本,組成所述樣本數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國工商銀行股份有限公司,未經(jīng)中國工商銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310721373.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





