[發明專利]一種基于云計算平臺的大數據聚類方法在審
| 申請號: | 202110404868.8 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN112948345A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 梁杰 | 申請(專利權)人: | 蘇州數海長云數據信息科技有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100020 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算 平臺 數據 方法 | ||
1.一種基于云計算平臺的大數據聚類方法,其特征在于,所述方法包括以下步驟:
Step1:將數據集X=(x1,x2,…,xn)部署到HDFS;
Step2:依次讀取每條記錄i,并計算樣本i與每個樣本的相似度,得到數據集的相似度矩陣S;第i個樣本與其余樣本的相似度計算和第j個樣本與其余樣本的相似度計算可以并行進行;
Step3:依據矩陣S得到數據集的加權連接矩陣W和度矩陣D;
Step4:計算拉普拉斯矩陣L;
Step5:采用Lanczos算法計算矩陣L的前k個特征值和特征向量;
Step6:采用并行K-means算法對特征向量構成的特征空間進行聚類得到聚類結果C1,C2,…,Cn。
2.根據權利要求1所述的一種基于云計算平臺的大數據聚類方法,其特征在于,所述步驟Step1中HDFS是Hadoop的分布式文件系統(Hadoop Distributed File System)的簡稱,它基于Google的GFS文件系統的思想而設計,可以部署在廉價的硬件設備上,并且具有良好的容錯性能。HDFS采用了master/slave結構,集群通常由一個NameNode和多個DataNode組成,數據采用分塊的形式存儲在各個DataNode上。NameNode則負責整個HDFS文件系統的管理包括客戶端在HDFS上進行文件的創建、刪除等,同時也可以兼任DataNode的角色,完成數據的存儲。為了防止單點故障,HDFS一般會設計SecondaryNameNode,用來作為NameNode的備份節點。同時,HDFS采用了副本策略,一個數據塊默認有三個副本,分別存放在本地節點、同一機架的另一節點、不同機架的某一節點,與HDFS相配合使用的MapReduce組成云計算平臺Hadoop。
3.根據權利要求2所述的一種基于云計算平臺的大數據聚類方法,其特征在于,MapReduce是一種適用于大規模數據處理的編程模型。它將工作流程分為map和reduce兩個階段。每個階段都用鍵/值對作為輸入和輸出。map階段將從原始數據塊中讀取出來的key/value進行map處理,并以緩沖的方式寫到磁盤。reduce階段讀取map處理之后的數據進行歸約處理,最后輸出到程序指定的輸出路徑。
4.根據權利要求3所述的一種基于云計算平臺的大數據聚類方法,其特征在于,所述步驟Step2中相似度是將數據集中的所有樣本看作圖的頂點集v={x1,x2,…,xn}s=Rn×n是一個相似度矩陣,sij是數據點xi和xj的相似度。在譜聚類中通常采用高斯函數計算數據點之間的相似度:
S=(sij)=exp(‖xi-xj‖2/2σ2)i,j=1,2,…,n。
5.根據權利要求4所述的一種基于云計算平臺的大數據聚類方法,其特征在于,為了獲得更好的計算性能,譜聚類通常對矩陣S進行稀疏化處理。稀疏化相似矩陣通常采用ξ-近鄰、k-近鄰、全連通三種方式。譜聚類算法將稀疏化的頂點間的相似度矩陣作為相應點對的連接邊的權值。這樣就得到一個基于樣本間相似度的無向圖G=(V,E)的相應邊的權重wij≥0,i,j=1,2,…,n。因為G是一個無向圖,所以可以得到頂點對(xi,xj)間的連接權值wij=wji。任意頂點vi∈V的度使用如下公式進行計算:
di=Σ(n,j=1)wij i=1,2,…,n
其中,W=(wij)是n×n階矩陣,D=(di)是1×n階矩陣,分別稱為連接矩陣W和度矩陣D。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州數海長云數據信息科技有限公司,未經蘇州數海長云數據信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110404868.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





