[發明專利]聚類方法、裝置和計算設備在審
| 申請號: | 202011059650.5 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN114330465A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 胥鵬鵬;許利霞;鄭衛炎 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 吳瑜 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方法 裝置 計算 設備 | ||
一種聚類方法,包括:在聚類裝置獲取到第一待聚類數據后,從聚類算法池包含的多個聚類算法中選擇第一聚類算法,按照第一聚類算法完成對第一待聚類數據的聚類,使得第一聚類算法對第一待聚類數據的聚類效果優于聚類算法池中其他算法的聚類效果。由于聚類過程中所選擇的聚類算法可以根據待聚類數據進行自適應調整,能夠滿足不同待聚類數據的需求,獲得更準確的聚類結果。
技術領域
本申請涉及機器學習領域,尤其涉及一種聚類方法、裝置和計算設備。
背景技術
在大數據時代,海量的數據已遠遠超出了人類的理解能力。為了獲取海量的數據所蘊含的信息,可以使用機器學習領域的算法對海量的數據進行挖掘。聚類是對數據集進行分組的一種非監督學習技術。聚類過程可以使用不同算法實現聚類,按照聚類算法可以將數據集分成若干個簇(cluster),確保同一簇內的數據之間具有相同的屬性或者特征。但往往基于一種聚類算法對具有不同特征的數據進行聚類,由于不同的數據(如:文本、數字、圖像數據)的特征分布不同,如果采用一種聚類算法對不同特征分布的數據進行聚類,無法保證聚類結果的合理性。因此,如何提供一種更合理的聚類方法成為亟待解決的問題。
發明內容
本申請提供了一種聚類方法、裝置和計算設備,由此提供一種更合理的聚類方法。
第一方面,本申請提供了一種聚類方法,該方法可以應用于聚類裝置,具體包括如下步驟:獲取到第一待聚類數據后,從聚類算法池中選擇第一聚類算法,按照第一聚類算法完成對第一待聚類數據的聚類,使得第一聚類算法對第一待聚類數據的聚類效果優于聚類算法池中其他算法的聚類效果。其中,聚類算法池包括至少兩個聚類算法,第一聚類算法為聚類算法池中任意一個算法。
如此,在聚類過程中可以從多個預設的聚類算法中自適應選擇聚類算法,使得選擇到的第一聚類算法適用于待聚類數據的特征分布,利用適應不同待聚類數據的需求,最終獲得更準確的聚類結果。
在一種可能的實現方式中,從聚類算法池中選擇第一聚類算法,包括:利用聚類算法池中多個聚類算法分別對第二待聚類數據進行聚類得到聚類結果,依據多個聚類算法的聚類結果選擇第一聚類算法。其中,第一待聚類數據和所述第二待聚類數據的特征分布相同。可選的,多個聚類算法可以是用戶指示的聚類算法池中的聚類算法。
具體的,評估多個聚類算法的聚類結果得到多個評估結果;根據多個評估結果選擇第一聚類算法。
示例的,評估多個聚類算法的聚類結果得到多個評估結果,包括:確定多個聚類算法的聚類結果的評估系數,得到多個評估結果,多個評估結果包括第一聚類算法的評估結果,第一聚類算法的評估系數優于聚類算法池中其他算法的評估系數,評估系數用于衡量每個聚類結果中同一類內數據的相似程度,以及每個聚類結果中不同類的數據的差異程度;則根據多個評估結果選擇第一聚類算法,包括:選擇多個評估結果的評估系數中趨于閾值的評估系數對應的聚類算法作為第一聚類算法。
可選的,評估系數可以是緊湊度和分離度。緊湊度用于衡量每個聚類結果中同一類內數據的相似程度。分離度用于衡量每個聚類結果中不同類的數據的差異程度。
調用預先配置的多個聚類算法對待聚類數據進行聚類后,綜合評估多個聚類結果,最終選擇一個適用于待聚類數據的特征分布的第一聚類算法,有效地提高了聚類裝置的整體適應性,獲得最優的聚類結果。
在另一種可能的實現方式中,在按照第一聚類算法完成對第一待聚類數據的聚類之前,方法還包括:按照預設規則調整第一聚類算法的參數,預設規則為依據第一聚類算法對第二待聚類數據進行聚類的收斂趨勢調整第一聚類算法的參數。
在另一種可能的實現方式中,按照預設規則調整第一聚類算法的參數,包括:根據預設步長調整第一聚類算法的參數的初始值,得到第一聚類算法的參數的中間值;利用第一聚類算法的參數的中間值對第二待聚類數據進行聚類,直到第一聚類算法收斂,將第一聚類算法的參數的中間值確定為第一聚類算法的參數的調整值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011059650.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據流統計方法及以太網交換機
- 下一篇:信息處理方法及裝置





