[發明專利]基于云計算平臺的并行數據挖掘方法及系統在審
| 申請號: | 201110386148.X | 申請日: | 2011-11-29 |
| 公開(公告)號: | CN103136244A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 顧茜;趙鵬 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 顏鏑 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 平臺 并行 數據 挖掘 方法 系統 | ||
技術領域
本發明涉及數據挖掘領域,尤其涉及一種基于云計算平臺的并行數據挖掘方法及系統。
背景技術
隨著云計算的發展,軟件即服務(Software?As?A?Service,簡稱SAAS)應用普及,對SAAS應用數據的挖掘是目前企業需要解決的一個重要技術問題。傳統的Apriori及改進的數據挖掘算法只適合較小的數據規模,對于云計算所帶來的海量數據,現有的數據挖掘算法及改進算法的效率都難以令人滿意,相應的原有的數據挖掘體系已無法實現企業對云計算帶來的海量數據進行有效的快速挖掘的要求。
發明內容
本發明的目的是提出一種基于云計算平臺的并行數據挖掘方法及系統,能夠實現海量數據的高效挖掘。
為實現上述目的,本發明提供了一種基于云計算平臺的并行數據挖掘方法,所述云計算平臺具有映射-化簡框架,所述映射-化簡框架包括多個映射的分布式節點和化簡任務節點,所述并行數據挖掘方法包括:
所述分布式節點對已建立的分布式SAAS應用數據庫建立事實聯系表,所述SAAS應用數據庫中包括多個單獨維表;
所述分布式節點根據所述事實聯系表對所述分布式SAAS應用數據庫中的每個單獨維表進行數據抽取,找出所述每個單獨維表的頻繁項集;和/或根據所述事實聯系表找出所述分布式SAAS應用數據庫的跨維表的頻繁項集;
所有所述分布式節點將找到的頻繁項集作為中間文件輸入到所述化簡任務節點;
所述化簡任務節點合并接收到的中間文件,并輸出合并后的頻繁項集作為數據挖掘結果。
為實現上述目的,本發明提供了一種基于云計算平臺的并行數據挖掘系統,所述云計算平臺具有映射-化簡框架,所述映射-化簡框架包括多個映射的分布式節點和化簡任務節點,所述分布式節點中包括已建立的分布式SAAS應用數據庫,所述SAAS應用數據庫中包括多個單獨維表;
所述分布式節點還包括:
事實聯系表建立單元,用于對已建立的分布式SAAS應用數據庫建立事實聯系表;
單維表頻繁項集獲取單元,用于根據所述事實聯系表對所述分布式SAAS應用數據庫中的每個單獨維表進行數據抽取,找出所述每個單獨維表的頻繁項集;
跨維表頻繁項集獲取單元,用于根據所述事實聯系表找出所述分布式SAAS應用數據庫的跨維表的頻繁項集;
數據輸入單元,用于將找到的頻繁項集作為中間文件輸入到所述化簡任務節點;
所述化簡任務節點用于對從各個分布式節點接收到的中間文件進行合并,并輸出合并后的頻繁項集作為數據挖掘結果。
基于上述技術方案,本發明基于映射-化簡(Map-Reduce)框架將云計算中的大規模數據集的挖掘過程在多個分布式節點中進行,最后通過任務化簡節點的頻繁項集合并而輸出最終的數據挖掘結果,從而實現了海量數據的高效挖掘,大大提高了數據挖掘的效率。
附圖說明
此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
圖1為本發明基于云計算平臺的并行數據挖掘方法的一實施例的流程示意圖。
圖2為本發明基于云計算平臺的并行數據挖掘方法的另一實施例中單獨維表的頻繁項集的查找流程示意圖。
圖3為本發明基于云計算平臺的并行數據挖掘方法的又一實施例中跨維表的頻繁項集的查找流程示意圖。
圖4為本發明云計算平臺的并行數據挖掘系統的一實施例的結構示意圖。
具體實施方式
下面通過附圖和實施例,對本發明的技術方案做進一步的詳細描述。
如圖1所示,為本發明基于云計算平臺的并行數據挖掘方法的一實施例的流程示意圖。在本實施例中的云計算平臺具有Map-Reduce框架,Map-Reduce框架包括多個映射的分布式節點和化簡任務節點。并行數據挖掘流程具體包括以下步驟:
步驟101、所述分布式節點對已建立的分布式SAAS應用數據庫建立事實聯系表,所述SAAS應用數據庫中包括多個單獨維表;
步驟102、所述分布式節點根據所述事實聯系表對所述分布式SAAS應用數據庫中的每個單獨維表進行數據抽取,找出所述每個單獨維表的頻繁項集;和/或根據所述事實聯系表找出所述分布式SAAS應用數據庫的跨維表的頻繁項集;
步驟103、所有所述分布式節點將找到的頻繁項集作為中間文件輸入到所述化簡任務節點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110386148.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:耳機線無障礙接頭、子母雙耳機結構及電子設備
- 下一篇:運動估計方法





