[發明專利]一種基于大數據并行計算的聚類方法及系統在審
| 申請號: | 201710585102.8 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107451224A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 晉彤;李永康 | 申請(專利權)人: | 廣州特道信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 梁順宜,郝傳鑫 |
| 地址: | 510000 廣東省廣州市越秀*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 并行 計算 方法 系統 | ||
1.一種基于大數據并行計算的聚類方法,其特征在于,包括以下步驟:
接收大集群多線程并行采集的待聚合數據;
將所述待聚合數據保存在第一數據庫中;
提取所述待聚合數據的數據特征,同一時段多線程并行調用聚類模型獨立分布式計算分析所述待聚合數據的聚合類別并進行同類別聚合;
將所述同類別聚合后的數據保存在第二數據庫中;
將所述同類別聚合后的數據存儲于內存中并建立聚類數據索引。
2.根據權利要求1所述的聚類方法,其特征在于,在所述將所述同類別聚合后的數據存儲于內存中并建立聚類數據索引之后,還包括:
在預設時間將存儲在內存中的所述同類別聚合后的數據保存到硬盤并建立硬盤數據索引。
3.根據權利要求1所述的聚類方法,其特征在于,所述提取所述待聚合數據的數據特征,同一時段多線程并行調用聚類模型獨立分布式計算分析所述待聚合數據的聚合類別并進行同類別聚合,具體為:
提取所述待聚合數據的數據特征;
同一時段多線程并行調用聚類模型,所述各聚類模型獨立運行;
將所述待聚合數據分割成預設大小的數據塊分散存儲于預設服務器集群的每臺服務器中,根據聚類模型計算分析所述數據塊,將所述數據塊的計算結果結合得到所述待聚合數據的聚合類別并進行同類別聚合歸檔。
4.根據權利要求1所述的聚類方法,其特征在于,還包括:
建立聚類模型的步驟;
所述建立聚類模型的步驟包括:
根據文檔主題生成模型分析數據特征,進行多元組層次分類;
根據各個元組的數據特征建立一一對應的小聚類模型;其中,所述元組擁有獨屬于自身的實體權重比例與概率權重模型;
分析整合所述小聚類模型,建立聚類模型。
5.根據權利要求1所述的聚類方法,其特征在于,所述元組的數據特征根據實體權重及概率權重模型計算進行權重比例調整。
6.一種基于大數據并行計算的聚類系統,其特征在于,包括:接收模塊、保存模塊、聚合模塊、聚合存儲模塊、索引模塊;
所述接收模塊,用于接收大集群多線程并行采集的待聚合數據;
所述保存模塊,用于將所述待聚合數據保存在第一數據庫中;
所述聚合模塊,用于提取所述待聚合數據的數據特征,同一時段多線程并行調用聚類模型獨立分布式計算分析所述待聚合數據的聚合類別并進行同類別聚合;
所述聚合存儲模塊,用于將所述同類別聚合后的數據保存在第二數據庫中;
所述索引模塊,用于將所述同類別聚合后的數據存儲于內存中并建立聚類數據索引。
7.根據權利要求6所述的聚類系統,其特征在于,還包括:
轉移存儲系統,用于在預設時間將存儲在內存中的所述聚合后的數據保存到硬盤并建立硬盤數據索引。
8.根據權利要求6所述的聚類系統,其特征在于,所述聚合模塊具體包括:
提取單元,用于提取所述待聚合數據的數據特征;
調用單元,用于同一時段多線程并行調用聚類模型,所述各聚類模型獨立運行;
分布式計算單元,用于將所述待聚合數據分割成預設大小的數據塊分散存儲于預設服務器集群的每臺服務器中,根據聚類模型計算分析所述數據塊,將所述數據塊的計算結果結合得到所述待聚合數據的聚合類別并進行同類別聚合歸檔。
9.根據權利要求6所述的聚類系統,其特征在于,還包括:
建立聚類模型模塊;
所述建立聚類模型模塊包括:
分類單元,用于根據文檔主題生成模型分析數據特征,進行多元組層次分類;
建立單元,用于根據各個元組的數據特征建立一一對應的小聚類模型;其中,所述元組擁有獨屬于自身的實體權重比例與概率權重模型;
整合單元,用于分析整合所述小聚類模型,建立聚類模型。
10.根據權利要求9所述的聚類系統,其特征在于,所述元組的數據特征根據實體權重及概率權重模型計算進行權重比例調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州特道信息科技有限公司,未經廣州特道信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710585102.8/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





