[發明專利]增量聚類方法及系統、分布式增量聚類方法及系統在審
| 申請號: | 202210013145.X | 申請日: | 2022-01-06 |
| 公開(公告)號: | CN114386501A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 王義鋒;徐守奎;陳舟鋒 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 楊琪宇 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 增量 方法 系統 分布式 | ||
本發明公開一種增量聚類方法及系統、還公開一種分布式增量聚類方法及系統,涉及數據處理領域,其中增量聚類方法包括以下步驟:獲取待聚類數據和已聚類數據;基于所述待聚類數據對所述已聚類數據進行增量聚類,獲得若干個第一聚類簇,各第一聚類簇均包含至少一個目標特征;檢測各第一聚類簇中的異常特征,并基于所得異常檢測結果對相應的第一聚類簇進行更新,獲得聚類結果;增量聚類過程中存在某個聚類簇被異常特征污染,使該聚類簇包含大量不屬于該聚類簇的特征,本發明通過檢測各第一聚類簇中的異常特征,基于所得異常檢測結果對相應的第一聚類簇進行更新,以確保所得聚類結果的準確性。
技術領域
本發明涉及數據處理領域,尤其涉及一種增量聚類技術。
背景技術
現今常用聚類方式為全量聚類,即,每次聚類都將所有參與聚類的特征作為待聚類特征,重新計算待聚類特征之間的相似度,基于所得相似度將待聚類特征劃分為若干個聚類簇;此方案精度高,但不能利用前一次聚類的結果,當參與聚類的特征數量較多時,計算量大,聚類速度慢;
針對全量聚類的聚類效率低的缺陷,現今提出增量聚類的方式,即,當有新的特征加入時,基于新加入的特征對前一次聚類所得的聚類簇進行更新,以提高聚類效率,但增量聚類的精度較低。
發明內容
本發明針對現有增量聚類技術的聚類精度低的缺點,提供了一種對異常特征進行檢測,并根據所得異常檢測結果優化聚類結果,以提高聚類結果準確率的增量聚類技術。
為了解決上述技術問題,本發明通過下述技術方案得以解決:
一種增量聚類方法,包括以下步驟:
獲取待聚類數據和已聚類數據;
基于所述待聚類數據對所述已聚類數據進行增量聚類,獲得若干個第一聚類簇;
檢測各第一聚類簇中的異常特征,并基于所得異常檢測結果對相應的第一聚類簇進行更新,獲得聚類結果,其中更新包括對剔除第一聚類簇中的異常特征,以及對第一聚類簇進行拆分。
本發明中的異常特征為與多類特征相近似的特征,由于異常特征與不同種類的特征相近似,在聚類過程中,將會源源不斷地將與該異常特征相近似的特征匯總于同一聚類簇,從而導致聚類錯誤雪崩式堆積,嚴重影響聚類的準確度;
現有技術解決上述問題的方案為:
限制聚類簇中特征的總量,在聚類簇的特征數量過多時,避免與異常特征相近似的正常特征再加入異常特征所在聚類簇,以避免聚類錯誤繼續堆積;
提高相似度閾值,當兩個特征的相似度超過預設的相似度閾值時,判定兩個特征相似,提高相似度閾值,能夠減少判定與異常特征相近似的正常特征,但會出現同類特征劃分至不同聚類簇的情況,亦會影響聚類的準確度,例如將同一個人的人臉特征錯誤聚類為若干個聚類簇,在后續基于所得聚類結果進行人臉識別時,只能基于人臉圖像召回部分聚類簇,影響最終的人臉識別結果;
本發明通過識別各第一聚類簇中的異常特征,基于所得異常特征對相應的第一聚類簇進行更新,以確保所得聚類結果的準確性。
作為一種可實施方式,檢測各第一聚類簇中的異常特征的步驟為:
各第一聚類簇均包含至少一個目標特征,即,將參與本次聚類的特征均作為目標特征,檢測所述第一聚類簇中作為核心特征的目標特征,獲得第一特征;
提取各第一特征的鄰域特征,統計所述第一特征所對應的鄰域特征數以及鄰域核心特征數,所述鄰域特征指與所述第一特征相似的目標特征,所述鄰域核心特征數指屬于核心特征的鄰域特征的數量;
即,遍歷所述第一特征的鄰域特征,將屬于核心特征的鄰域特征作為所述第一特征的鄰域核心特征,統計所述第一特征所對應的鄰域特征的數量,獲得相應的鄰域特征數,并統計所述第一特征所對應的鄰域核心特征的數量,獲得相應的鄰域核心特征數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210013145.X/2.html,轉載請聲明來源鉆瓜專利網。





