[發明專利]基于中心匹配的簇數量確定方法、裝置、設備及存儲介質在審
| 申請號: | 202211170302.4 | 申請日: | 2022-09-26 |
| 公開(公告)號: | CN115293295A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 張瑞霖;王鴻鵬;鄭海陽;謝甜 | 申請(專利權)人: | 哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 何秋石 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 中心 匹配 數量 確定 方法 裝置 設備 存儲 介質 | ||
本發明涉及數據挖掘領域,公開了一種基于中心匹配的簇數量確定方法、裝置、設備及存儲介質,該方法包括:將原始數據集轉換為原始向量數據集;根據原始向量數據集確定邊界數據,并刪除原始數據集中的邊界數據,獲得核心數據集;根據核心數據集確定密度峰值集和均值中心集;基于密度峰值集和均值中心集確定最佳簇數量。由于本發明是通過對比來自不同源的高代表性數據的位置行為來確定最佳簇數量而非直接定義,相比于現有技術中通過預先定義聚類有效性指標,然后對完整聚類結果進行迭代式評分來確定最佳簇數量,本發明避免了邊界數據的消極影響,并且無需進行大量迭代,能夠準確快速地確定最佳簇數量。
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種基于中心匹配的簇數量確定方法、裝置、設備及存儲介質。
背景技術
如今,在聚類分析中如何確定最佳聚類成為數據挖掘中經典且廣受關注的一個研究方向,而正確的簇數量是獲得最佳聚類的基礎?,F有技術中通常以聚類有效性指標(cluster validity index)為主線,給定不同的簇數量取值來多次運行基礎聚類算法以產生不同的聚類結果,并利用聚類有效性指標對當前聚類結果進行評價打分。最后,通過聚類有效性指標的最佳取值(最大或最?。﹣泶_定實際的簇數量。
然而,由于聚類有效性指標設計過于復雜,導致實際采用上述現有技術的方法時,需要對輸入的原始數據集進行大量迭代。并且面對復雜數據時,如高維、流形、嵌套、重疊、邊界模糊,現有技術依賴的“最佳簇數量+最佳有效性指標取值+最佳聚類”的匹配性往往被打破。因此,無法快速確定原始數據集的簇數量。
上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
發明內容
本發明的主要目的在于提供了一種基于中心匹配的簇數量確定方法、裝置、設備及存儲介質,旨在解決現有技術中無法快速確定原始數據集的簇數量的技術問題。
為實現上述目的,本發明提供了一種基于中心匹配的簇數量確定方法,所述方法包括以下步驟:
將原始數據集轉換為原始向量數據集;
根據所述原始向量數據集確定邊界數據,并刪除所述原始數據集中的邊界數據,獲得核心數據集;
根據所述核心數據集確定密度峰值集和均值中心集;
基于所述密度峰值集和所述均值中心集確定最佳簇數量。
可選地,所述將原始數據集轉換為原始向量數據集,包括:
根據空間向量分解定理,將原始數據集所在的數據空間轉換為向量空間;
通過所述向量空間將所述原始數據集轉換為原始向量數據集。
可選地,所述根據所述原始向量數據集確定邊界數據,包括:
建立投影子空間,將所述原始向量數據集中的各向量數據輸入至所述投影子空間中;
標記所述投影子空間中存在偏斜分布的向量數據,并將所述存在偏斜分布的向量數據對應的原始數據確定為邊界數據。
可選地,所述根據所述核心數據集獲取密度峰值集和均值中心集,包括:
根據預設局部采樣半徑獲取所述核心數據集中各數據的局部密度和高密度最小距離;
根據所述局部密度和所述高密度最小距離生成密度峰值集;
通過K-means++算法從所述核心數據集中獲取均值中心集。
可選地,所述根據所述局部密度和所述高密度最小距離生成密度峰值集,包括:
將所述各數據的局部密度和高密度最小距離相乘得到決策值;
根據所述決策值的大小對所述核心數據集中各數據進行降序排序,選取排在前的數據作為密度峰值集,其中,N為核心數據集的數據總數。
可選地,所述基于所述密度峰值集和所述均值中心集確定最佳簇數量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院),未經哈爾濱工業大學(深圳)(哈爾濱工業大學深圳科技創新研究院)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211170302.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動糾偏的吹膜機牽引設備
- 下一篇:功率控制方法、裝置及存儲介質





