[發明專利]增量聚類方法及系統、分布式增量聚類方法及系統在審
| 申請號: | 202210013145.X | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114386501A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 王義鋒;徐守奎;陳舟鋒 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 楊琪宇 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增量 方法 系統 分布式 | ||
1.一種增量聚類方法,其特征在于,包括以下步驟:
獲取待聚類數據和已聚類數據;
基于所述待聚類數據對所述已聚類數據進行增量聚類,獲得若干個第一聚類簇;
檢測各第一聚類簇中的異常特征,并基于所得異常檢測結果對相應的第一聚類簇進行更新,獲得聚類結果。
2.根據權利要求1所述的增量聚類方法,其特征在于,檢測各第一聚類簇中的異常特征的步驟為:
各第一聚類簇均包含至少一個目標特征,檢測所述第一聚類簇中作為核心特征的目標特征,獲得第一特征;
提取各第一特征的鄰域特征,統計所述第一特征所對應的鄰域特征數以及鄰域核心特征數,所述鄰域特征指與所述第一特征相似的目標特征,所述鄰域核心特征數指屬于核心特征的鄰域特征的數量;
基于第一特征的鄰域特征、鄰域特征數和鄰域核心特征數判斷所述第一特征是否為異常特征,獲得相應的異常檢測結果。
3.根據權利要求2所述的增量聚類方法,其特征在于,所述基于第一特征的鄰域特征、鄰域特征數和鄰域核心特征數判斷所述第一特征是否為異常特征的具體步驟為:
基于所述鄰域特征數和所述鄰域核心特征數,按照預設的判斷規則對相應的第一特征進行異常判斷,當判定所述第一特征異常時,將第一特征作為第二特征;
計算各第二特征所對應的離散值,獲得待判定離散值,其中離散值用于指示各鄰域特征之間的離散程度;
當所述待判定離散值大于相應的離散閾值時,判定所述第二特征為異常特征。
4.根據權利要求3所述的增量聚類方法,其特征在于,所述離散閾值的獲取方法為:
當判定所述第一特征正常時,將第一特征作為第三特征;
匯總對應第一聚類簇中所有第三特征的鄰域特征,基于所得匯總結果計算第一聚類簇所對應的離散值,獲得基礎離散值;
基于所述基礎離散值確定所述離散閾值。
5.根據權利要求1至4任一所述的增量聚類方法,其特征在于:
待聚類數據包括若干待聚類特征;
已聚類數據包括若干個第二聚類簇,各第二聚類簇包括至少一個已聚類特征,所述已聚類數據還包括各已聚類特征的鄰域特征;
將待聚類特征和已聚類特征均作為目標特征,基于目標特征間的相似度確定各目標特征的鄰域特征;
基于所述第二聚類簇和各目標特征的鄰域特征進行增量聚類,獲得相應的第一聚類簇。
6.根據權利要求5所述的增量聚類方法,其特征在于基于所述第二聚類簇和各目標特征的鄰域特征進行增量聚類前,還包括執行判斷步驟,具體為:
判斷各待聚類特征是否是核心特征;
當存在作為核心特征的待聚類特征時,判定執行聚類,則基于所述第二聚類簇和各目標特征的鄰域特征進行增量聚類。
7.根據權利要求6所述的增量聚類方法,其特征在于:
待聚類特征為第一待聚類特征或第二待聚類特征,所述第二待聚類特征為新增特征;
當上一次增量聚類的執行判斷步驟判定不執行聚類時,則保存上一次增量聚類所對應的待聚類特征的鄰域特征,并將上一次增量聚類所對應的待聚類特征作為當前增量聚類的第一待聚類特征;
計算所述第二待聚類特征與各目標特征之間的相似度,獲得各目標特征所對應的鄰域特征。
8.一種增量聚類系統,其特征在于,包括:
數據獲取模塊,用于獲取待聚類數據和已聚類數據;
增量聚類模塊,用于基于所述待聚類數據對所述已聚類數據進行增量聚類,獲得若干個第一聚類簇;
異常處理模塊,用于檢測各第一聚類簇中的異常特征,并基于所得異常檢測結果對相應的第一聚類簇進行更新,獲得聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210013145.X/1.html,轉載請聲明來源鉆瓜專利網。





