[發明專利]一種異常數據檢測中譜聚類算法并行化方法及系統在審
| 申請號: | 202110325195.7 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN112988693A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 應時;周慧敏;成海龍;段曉宇 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/182;G06F16/172;G06K9/62 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 異常 數據 檢測 中譜聚類 算法 并行 方法 系統 | ||
本發明公開了一種異常數據檢測中譜聚類算法并行化方法及系統,首先將待聚類分析的數據集樣本進行數據分布式存儲;然后并行化構建數據集樣本的相似矩陣;并行化計算相似矩陣的拉普拉斯矩陣;并行化計算拉普拉斯矩陣的特征向量,獲得維度為n×d的特征向量矩陣;最后并行化執行K?mean聚類算法。經實驗結果表明,本發明在面對海量日志數據的聚類分析時,在保證良好聚類效果的同時,算法的執行效率也得到顯著提升。
技術領域
本發明屬于計算機軟件技術領域,涉及一種譜聚類算法并行化化方法及系統,具體涉及一種異常數據檢測中譜聚類算法并行化方法及系統。
背景技術
大型系統中的軟件在實際運營過程中,處理和產生的數據十分龐大。這些數據有時能達到TB甚至PB級,有如此之多的數據需要處理和產生,大型系統出現故障就在所難免。而故障日志用來記錄系統故障的相關信息,隨著系統規模逐漸擴大,日志的規模呈指數型增長,日志種類也越來越復雜。一旦計算機系統出現性能故障,就必須要盡快且準確的進行故障的定位從而進行故障的修復。否則將會影響正常的社會生活并造成巨大的經濟損失,嚴重的情況下還可能影響到社會安定。
當大型計算機系統出現故障時,如何從多類別大規模的日志中區分故障日志和正常日志,并將故障診斷信息及時反饋給相應的開發人員并及時排除系統故障成為了一種挑戰。并且面對海量數據,單機的存儲能力受到限制,存儲系統的穩定性和擴展性受到影響,也會使得數據管理與分析變的更加復雜。
解決異常數據檢測問題,通常的做法是使用聚類算法。常見的聚類算法有常見的聚類算法有K-means聚類、DBSCAN聚類、層次聚類等。但是當數據規模巨大時,串行執行的聚類算法存在多次迭代計算,計算復雜度會呈指數級增長,算法的執行效率會變得低下。因此為了走出海量數據帶來得困境,本申請將聚類算法并行化,就能在正確執行異常日志檢測的基礎上解決算法時間復雜度的問題。
發明內容
為了解決單機儲存系統無法滿足對海量數據地儲存要求,以及面對海量數據,譜聚類算法執行效率較低的情況,本發明提出一種異常數據檢測中譜聚類算法并行化方法及系統。
本發明的方法所采用的技術方案是:一種異常數據檢測中譜聚類算法并行化方法,包括以下步驟:
步驟1:將待聚類分析的數據集樣本進行數據分布式存儲;
步驟2:并行化構建數據集樣本的相似矩陣A;
從HDFS中讀取數據集樣本,將數據集樣本進行向量化,并利用開源并行計算框架Spark中的彈性分布式數據集RDD形式將向量化的數據集樣本進行存儲,然后構建數據向量空間,接著通過并行計算數據集樣本之間的相似性,生成數據集樣本的相似矩陣A;
步驟3:并行化計算相似矩陣A的拉普拉斯矩陣;
步驟4:并行化計算拉普拉斯矩陣的特征向量,獲得維度為n×d的特征向量矩陣,其中n表示樣本個數,d表示特征向量的維度;
步驟5:并行化執行K-mean聚類算法。
本發明的系統所采用的技術方案是:一種異常數據檢測中譜聚類算法并行化系統,包括以下模塊:
模塊一,用于將待聚類分析的數據集樣本進行數據分布式存儲;
模塊二,用于并行化構建數據集樣本的相似矩陣A;
從HDFS中讀取數據集樣本,將數據集樣本進行向量化,并利用開源并行計算框架Spark中的彈性分布式數據集RDD形式將向量化的數據集樣本進行存儲,然后構建數據向量空間,接著通過并行計算數據集樣本之間的相似性,生成數據集樣本的相似矩陣A;
模塊三,用于并行化計算相似矩陣A的拉普拉斯矩陣;
模塊四,用于并行化計算拉普拉斯矩陣的特征向量,獲得維度為n×d的特征向量矩陣,其中n表示樣本個數,d表示特征向量的維度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110325195.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶過濾功能的花灑組件
- 下一篇:一種結合面部角度信息的多姿態人臉驗證方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





