[發明專利]一種基于MapReduce的大型數據集聚類方法有效
| 申請號: | 201811602303.5 | 申請日: | 2018-12-26 |
| 公開(公告)號: | CN109858518B | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 程國艮;李欣杰 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 大型 數據 集聚 方法 | ||
本發明屬于計算機應用技術領域,尤其涉及一種基于MapReduce的大型數據集聚類方法,從HDFS中讀取原始樣本;行隨機子空間分類器對原始樣本進行訓練,得到多個具有不同特征的訓練子集的分類器;從設計出的分類器中的各訓練子集關系中獲得內聯相似度矩陣,并通過并行Lanczos?QR算法求解其矩陣特征值所對應的特征向量來實現數據的高維約簡和低維嵌入。本發明行隨機子空間分類器對數據進行預處理,大大減少計算量和復雜度,同時避免了聚類結果陷入局部最優效果的問題,有效提升了算法的整體聚類精度;解決了結構復雜、數據量大、數據分布不均勻且噪聲多的大型數據集的問題。
技術領域
本發明屬于計算機應用技術領域,尤其涉及一種基于MapReduce的大型數據集聚類方法。
背景技術
大數據聚類分析是目前大數據挖掘的一項重要研究課題,對大型數據集的聚類集成更以其結構復雜、數據量大、數據分布不均勻且噪聲多而成為一個難點。針對大型數據集的聚類集成遇到的這些問題,提出了一種基于MapReduce的大型數據集聚類方法。
MapReduce編程模型可以批量處理大數據集,提供了一種新的對海量數據的處理方式,通過抽象出分層次的編程模型,從而大大簡化將大數據分片成子任務,并同時在集群計算機上運行的過程。MapReduce框架一般將大數據并行計算劃分為Map、Combine、Reduce三個步驟,通過利用MapReduce框架和接口,能夠簡化并行化開發過程,便于有效地組織和應用分布式資源,高效便捷地進行大數據分析和計算。
集成學習作為機器學習的研究方向之一,已經在模式識別中得到廣泛應用,如:字符識別、目標識別和文本分類等。集成學習中的隨機子空間法可增強集成分類器之間的獨立性,在大型數據集分類中有很廣的應用場景。
當前技術存在的問題是,機器學習的相關算法應用到大型數據集聚類的算法較少,主要是系統聚類算法和K-means聚類算法,這種單一的聚類算法難以完成大數量和高維度樣本的聚類分析任務,但是通過設計和應用聚類組合算法,可以發揮不同聚類算法的優勢,同時解決初始聚類中心設置問題,從而得到更加可靠的聚類分析結果。此外,由于數據樣本的復雜性,經過特征項的提取后,特征維數仍然可以達到上千維,直接在原始空間上進行降維,會丟失某些重要信息。
綜上所述,現有技術存在的問題是:
(1)對于結構復雜、數據量大、數據分布不均勻且噪聲多的大型數據集,現有技術聚類結果準確性差。
(2)現有技術難以完成大數量和高維度樣本的聚類分析任務,直接在原始空間上進行降維,會丟失某些重要信息。
(3)現有技術中,大數據集將數據傳遞到HDFS中讀取原始樣本過程中,沒有設置數據預測模塊,降低了后續的數據分類效率。
(4)基于MapReduce并行計算的聚類算法重新劃分聚類中心和中心點,其聚類算法采用傳統的算法,不能簡化聚類結構的復雜度,降低了數據集的聚類效果和聚類的速度。
(5)行隨機子空間分類器對原始樣本進行訓練,得到多個具有不同特征的訓練子集的分類器中需要對大數據進行分類中,大多數傳統分類算法假定數據集類分布是平衡的,分類結果偏向多數類,效果不理想的問題。
發明內容
本發明的目的在于提供一種基于MapReduce的大型數據集聚類方法,旨在解決現有技術聚類結果準確性差、難以完成大數量和高緯度的聚類分析任務。
本發明是這樣實現的,一種基于MapReduce的大型數據集聚類方法,其特征在于,所述基于MapReduce的大型數據集聚類方法包括:
步驟一,從HDFS中讀取原始樣本;
步驟二,行隨機子空間分類器對原始樣本進行訓練,得到多個具有不同特征的訓練子集的分類器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811602303.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種以運動方向為主導的軌跡相似性度量方法
- 下一篇:數據分類方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





