[發明專利]一種基于云計算平臺的大數據聚類方法在審
| 申請號: | 202110404868.8 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN112948345A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 梁杰 | 申請(專利權)人: | 蘇州數海長云數據信息科技有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算 平臺 數據 方法 | ||
本發明公開了一種基于云計算平臺的大數據聚類方法,所述方法包括以下步驟:Step1:將數據集X=(x1,x2,…,xn)部署到HDFS;Step2:依次讀取每條記錄i,并計算樣本i與每個樣本的相似度,得到數據集的相似度矩陣S;第i個樣本與其余樣本的相似度計算和第j個樣本與其余樣本的相似度計算可以并行進行;Step3:依據矩陣S得到數據集的加權連接矩陣W和度矩陣D;Step4:計算拉普拉斯矩陣L。本發明相對于傳統的譜聚類方法來說,提高了并行譜聚類的聚類精度,同時在利用并行譜聚類進行計算的時候用到的MapReduce計算框架可以提高數據處理速度,主要依賴于Hadoop集群中的計算節點的個數即task?tracker的個數,大大的提高整個譜聚類的聚類速度。
技術領域
本發明涉及數據挖掘領域,尤其涉及一種基于云計算平臺的大數據聚類方法。
背景技術
云計算(Cloud Computing)是一種計算資源交付模型,通常對資源進行了虛擬化。簡單地說,云計算就是計算服務的提供(包括服務器、存儲、數據庫、網絡、軟件、分析和智能)-通過Internet提供快速創新、彈性資源和規模經濟。
大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
譜聚類算法建立在譜圖理論基礎上,與傳統的聚類算法相比,它具有能在任意形狀的樣本空間上聚類且收斂于全局最優解的優點。該算法首先根據給定的樣本數據集定義一個描述成對數據點相似度的親合矩陣,并且計算矩陣的特征值和特征向量,然后選擇合適的特征向量聚類不同的數據點。
但是傳統譜聚類算法就是在構建的拉普拉斯矩陣中,根據聚類個數k,求解其前k個特征值與其對應的特征向量并構建特征向量空間,然后采用K-means算法對特征向量空間中的特征向量進行聚類,在實際應用中隨著數據集規模的增大,譜聚類的收斂速度變得十分緩慢,然而利用傳統的譜聚類算法會使得運行速度以及對配置方面要求更高,不利于普遍使用化。
發明內容
基于背景技術存在的技術問題,本發明提出了一種基于云計算平臺的大數據聚類方法。
為本發明提出的一種基于云計算平臺的大數據聚類方法,所述方法包括以下步驟:
Step1:將數據集X=(x1,x2,…,xn)部署到HDFS;
Step2:依次讀取每條記錄i,并計算樣本i與每個樣本的相似度,得到數據集的相似度矩陣S;第i個樣本與其余樣本的相似度計算和第j個樣本與其余樣本的相似度計算可以并行進行;
Step3:依據矩陣S得到數據集的加權連接矩陣W和度矩陣D;
Step4:計算拉普拉斯矩陣L;
Step5:采用Lanczos算法計算矩陣L的前k個特征值和特征向量;
Step6:采用并行K-means算法對特征向量構成的特征空間進行聚類得到聚類結果C1,C2,…,Cn。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州數海長云數據信息科技有限公司,未經蘇州數海長云數據信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110404868.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





