[發明專利]一種基于云計算平臺的大數據聚類算法有效
| 申請號: | 201410104227.0 | 申請日: | 2014-03-14 |
| 公開(公告)號: | CN103838863B | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 孟海東;任敬佩;宋宇辰 | 申請(專利權)人: | 內蒙古科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 014010 內蒙*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 計算 平臺 數據 算法 | ||
技術領域
本發明屬于數據挖掘技術領域,涉及一種基于云計算平臺的大數據聚類算法。
背景技術
聚類分析作為統計學、機器學習和數據挖掘等領域的交叉學科,吸引了眾多研究者投身其中,使之成為數據挖掘研究領域的一個非常活躍的研究課題。迄今為止國內外的研究者們提出了很多聚類算法,主要的聚類方法可以分為:基于劃分的方法、基于層次的方法、基于密度的方法、基于網格的方法和基于模型的方法等。
在2012年8月21日舉辦的“第六屆移動互聯網國際研討會”上,美國卡內基梅隆計算機機器人專業博士鄧侃表示,發現大數據中的價值,要依靠數據挖掘的算法,并且要有數據挖掘的算法加上云計算的并行計算。分布式的云存儲平臺則提供更加廉潔的成本和高處理性能,加上高效的數據挖掘算法,成為了解決大數據問題的良藥。
英國南安普頓大學《云計算下的海量數據挖掘研究》中提到云計算的出現為愈來愈多的中小企業分析海量數據提供廉價的解決方案。介紹基于云計算Hadoop集群框架和數據挖掘技術中的SPRINT(Scalable Parallelizable Induction of Decision of Trees,一種具有可伸縮性的決策樹分類算法)分類算法的基礎上,詳細描述SPRINT并行算法在Hadoop(一種分布式編程框架)中的MapReduce(一個數據處理模型)編程模型上的執行流程,并利用分析出的決策樹模型對輸入數據進行分類。
目前,基于云計算平臺的數據挖掘工作已取得眾多成果。Apache Mahout(Apache SoftWare Foudation旗下的一個開源項目)項目開發出多種面向商業角度的并行數據挖掘算法;中國科學院計算技術研究所推出的并行分布式數據挖掘平臺(PDMiner,Parallel Distributed Miner)已可實現TB級別的海量數據處理;中國移動通信的并行數據挖掘工具(BC-PDM,Blue Carrier based Parallel Data Mining)更是提供了基于Web的服務模式。這些標志性成果,大力推動了該領域的發展。在云計算編程模型MapReduce的基礎上,已有多種數據挖掘算法被實現。2007年CHU等學者提出了基于MapReduce的樸素貝葉斯分類算法。該算法采用分布處理的思想,通過采用對樣本進行分散統計與集中整合的方式來構造分類器,但它能處理離散型數據,不能對連續型數據提供有效的支持。另外,數據挖掘工作中常用聚類算法的MapReduce實現,就我們所知道的范圍內,尚未見到相關權威報道。
當前,國內外在對聚類方法的研究上還多停留在串行法的優化上。串行聚類算法在統計和數據庫領域得到了大量的研究和應用,如K-Means(K平均方法)算法、面向大規模數據庫系統的綜合層次聚類(BIRCH,Balanced Reducing and Clustering Using Hierarchies)算法、處理空間數據的統計信息網格(STING,Statistical Information Grid)算法等。面對日益增長的海量數據庫和高維數據類型,為了獲得更好的計算能力,研究并行模型下的聚類算法,利用集群的高速計算能力來解決大數據的聚類運算,具有非常重要的意義。
隨著互聯網、實時數據流、連接設備多樣化的發展,以及搜索服務、社會網絡、移動商務和開放協作等需求的推動,云計算迅速發展起來。不同于以往的并行分布式計算,云計算的產生從理念上將推動整個互聯網模式、企業管理模式發生革命性的變革。因此,各大IT廠商均在大力投資云計算的研究,推廣各自的云計算服務和產品的谷歌、亞馬遜、IBM、微軟和雅虎(Google、Amazon、IBM、Microsoft和Yahoo!)等大公司是云計算的先行者。
Google當數最大的云計算的使用者。目前,Google已經允許第三方在Google的云計算中通過GoogleApp Engine(谷歌應用搜索引擎)運行大型并行應用程序。MapReduce是由Google在2004年最先提出的分布式計算編程框架,它可以支持大數據量的分布式處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古科技大學,未經內蒙古科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410104227.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種吸濕防滲包裝紙
- 下一篇:一種鐵路凹底平車底架
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





