[發明專利]一種用電信息數據質量分析系統有效
| 申請號: | 201610091425.7 | 申請日: | 2016-02-18 |
| 公開(公告)號: | CN105786996A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 潘森;朱力鵬;胡斌;周愛華;楊佩;裘洪彬;喬俊峰 | 申請(專利權)人: | 國網智能電網研究院;國家電網公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/06 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 102211 北京市昌平區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用電 信息 數據 質量 分析 系統 | ||
技術領域
本發明涉及數據質量及大數據領域,具體涉及一種用電信息數據質量分析系統。
背景技術
用電信息采集數據質量分析方法基于Hadoop的大數據分析平臺,充分利用HDFS 分布式存儲、Hive數據庫、Hbase數據倉庫、Spark內存計算框架等先進技術,結合數 據挖掘算法和R語言并行化計算平臺,完成海量用電信息采集數據的質量分析工作。
Hadoop作為著名開源組織Apache旗下專注于分布式存儲和計算的開源項目,越來 越收到重視,它可以大規模集中處理和分析展現數據系統式,統籌規劃龐大的數據,實 現海量數據的高效處理,現在廣泛應用于分布式存儲、網頁搜索、日志分析、廣告計算、 分布式計算、數據挖掘等領域。
HDFS(Hadoop分布式文件系統)為分布式計算存儲提供底層支持。HDFS提供 了一個高度容錯性和高吞吐量的海量數據存儲解決方案。HDFS已經在各種大型在線服 務和大型存儲系統中得到廣泛應用,已經成為海量數據存儲的事實標準。HDFS能夠通 過將數據分解為數據塊,并將數據塊散布于大量工作節點中,實現容錯和高性能。HDFS 集群是由單獨的Namenode聯合若干的Datanode組成。HDFS采用master/slave架構。 Namenode維護整個系統的文件系統。Datanode每個系統集群單獨配置,處理節點上的 系統存儲單元。在內部,一個文件以block進行劃分,每個Datanode集合管理若干個 block。
Spark計算框架。Spark是UCBerkeleyAMPlab所開源的類似MapReduce的通用的 并行計算框架,Spark基于MapReduce算法實現的分布式計算,擁有HadoopMapReduce 所具有的優點;但不同于MapReduce的是Job中間輸出和結果可以保存在內存中,從 而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的 MapReduce的算法。
R是一個包含數據處理、統計分析功能和圖形可視化的集成統計分析軟件系統,是 由RossIhaka和RobertGentleman共同創立。R語言可以看作是由AT&T貝爾實驗室所 創的S語言發展出的一種方言。因此,R即是一種軟件也可以說是一種語言,具有自由、 免費、開源的特點,包含優秀的統計分析功能和強大的統計制圖功能,它簡單明了的命 令參數讓用戶易于理解操作,同時可編程的函數語言環境也為需要個性化定義的用戶提 供了極大便利。
SparkR是AMPLab發布的一個R開發包,為ApacheSpark提供了輕量的前端。 SparkR提供了Spark中彈性分布式數據集(RDD)的API,利用這些API,用戶可以在 集群上通過Rshell交互性的運行job。
Kmeans是基于距離的典型聚類算法,采用距離作為相似性的評價指標,其原理是 以k為參數,把n個對象分成k個簇,使簇內具有較高的相似度,而簇間的相似度較低。 Kmeans算法的處理過程如下:首先,隨機地選擇k個對象,每個對象初始地代表了一 個簇的平均值或中心。對剩余的每個對象,根據其與各簇中心的距離,將它賦給最近的 簇。然后重新計算每個簇的平均值。這個過程不斷重復,直到準則函數收斂。
因此,亟需設計一種基于Hadoop、Spark計算框架和R語言的用電信息采集數據 質量分析系統。
發明內容
有鑒于此,本發明提供的一種用電信息數據質量分析系統,該系統實現了基于 Hadoop、Spark計算框架和R語言的用電信息采集數據質量分析,提高了對用電信息采 集數據質量分析的效果,同時也利用大數據技術實現了對海量用電信息采集數據質量分 析的支持,大大提高了對海量用電信息采集數據質量分析的效率和速度;以快速高效的 方式實現海量用電信息采集數據的準備工作;簡化了數據挖掘的流程,很大程度地提高 了數據挖掘的速度和效率。
本發明的目的是通過以下技術方案實現的:
一種用電信息數據質量分析系統,所述系統包括數據準備模塊、數據集成模塊和數 據分析模塊;
所述數據準備模塊用于采集并存儲用電信息數據;
所述數據集成模塊基于所述數據準備模塊中的所述用電信息數據,建立用于查詢及 計算的數據表;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網智能電網研究院;國家電網公司,未經國網智能電網研究院;國家電網公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610091425.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





