[發明專利]一種用電信息數據質量分析系統有效

申請號：	201610091425.7	申請日：	2016-02-18
公開（公告）號：	CN105786996A	公開（公告）日：	2016-07-20
發明（設計）人：	潘森;朱力鵬;胡斌;周愛華;楊佩;裘洪彬;喬俊峰	申請（專利權）人：	國網智能電網研究院;國家電網公司
主分類號：	G06F17/30	分類號：	G06F17/30;G06Q50/06
代理公司：	北京安博達知識產權代理有限公司 11271	代理人：	徐國文
地址：	102211 北京市昌平區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種用電信息數據質量分析系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及數據質量及大數據領域，具體涉及一種用電信息數據質量分析系統。

背景技術

用電信息采集數據質量分析方法基于Hadoop的大數據分析平臺，充分利用HDFS 分布式存儲、Hive數據庫、Hbase數據倉庫、Spark內存計算框架等先進技術，結合數據挖掘算法和R語言并行化計算平臺，完成海量用電信息采集數據的質量分析工作。

Hadoop作為著名開源組織Apache旗下專注于分布式存儲和計算的開源項目，越來越收到重視，它可以大規模集中處理和分析展現數據系統式,統籌規劃龐大的數據，實現海量數據的高效處理，現在廣泛應用于分布式存儲、網頁搜索、日志分析、廣告計算、分布式計算、數據挖掘等領域。

HDFS(Hadoop分布式文件系統)為分布式計算存儲提供底層支持。HDFS提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。HDFS已經在各種大型在線服務和大型存儲系統中得到廣泛應用，已經成為海量數據存儲的事實標準。HDFS能夠通過將數據分解為數據塊，并將數據塊散布于大量工作節點中，實現容錯和高性能。HDFS 集群是由單獨的Namenode聯合若干的Datanode組成。HDFS采用master/slave架構。 Namenode維護整個系統的文件系統。Datanode每個系統集群單獨配置，處理節點上的系統存儲單元。在內部，一個文件以block進行劃分，每個Datanode集合管理若干個 block。

Spark計算框架。Spark是UCBerkeleyAMPlab所開源的類似MapReduce的通用的并行計算框架，Spark基于MapReduce算法實現的分布式計算，擁有HadoopMapReduce 所具有的優點；但不同于MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的 MapReduce的算法。

R是一個包含數據處理、統計分析功能和圖形可視化的集成統計分析軟件系統，是由RossIhaka和RobertGentleman共同創立。R語言可以看作是由AT&T貝爾實驗室所創的S語言發展出的一種方言。因此，R即是一種軟件也可以說是一種語言，具有自由、免費、開源的特點，包含優秀的統計分析功能和強大的統計制圖功能，它簡單明了的命令參數讓用戶易于理解操作，同時可編程的函數語言環境也為需要個性化定義的用戶提供了極大便利。

SparkR是AMPLab發布的一個R開發包，為ApacheSpark提供了輕量的前端。 SparkR提供了Spark中彈性分布式數據集(RDD)的API，利用這些API，用戶可以在集群上通過Rshell交互性的運行job。

Kmeans是基于距離的典型聚類算法，采用距離作為相似性的評價指標，其原理是以k為參數，把n個對象分成k個簇，使簇內具有較高的相似度，而簇間的相似度較低。 Kmeans算法的處理過程如下：首先，隨機地選擇k個對象，每個對象初始地代表了一個簇的平均值或中心。對剩余的每個對象，根據其與各簇中心的距離，將它賦給最近的簇。然后重新計算每個簇的平均值。這個過程不斷重復，直到準則函數收斂。

因此，亟需設計一種基于Hadoop、Spark計算框架和R語言的用電信息采集數據質量分析系統。

發明內容

有鑒于此，本發明提供的一種用電信息數據質量分析系統，該系統實現了基于 Hadoop、Spark計算框架和R語言的用電信息采集數據質量分析，提高了對用電信息采集數據質量分析的效果，同時也利用大數據技術實現了對海量用電信息采集數據質量分析的支持，大大提高了對海量用電信息采集數據質量分析的效率和速度；以快速高效的方式實現海量用電信息采集數據的準備工作；簡化了數據挖掘的流程，很大程度地提高了數據挖掘的速度和效率。

本發明的目的是通過以下技術方案實現的：

一種用電信息數據質量分析系統，所述系統包括數據準備模塊、數據集成模塊和數據分析模塊；

所述數據準備模塊用于采集并存儲用電信息數據；

所述數據集成模塊基于所述數據準備模塊中的所述用電信息數據，建立用于查詢及計算的數據表；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于國網智能電網研究院;國家電網公司，未經國網智能電網研究院;國家電網公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610091425.7/2.html，轉載請聲明來源鉆瓜專利網。