[發(fā)明專利]基于SparkStreaming的電力系統(tǒng)日志數(shù)據(jù)實時處理方法有效
| 申請?zhí)枺?/td> | 201710951969.0 | 申請日: | 2017-10-13 |
| 公開(公告)號: | CN107704594B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設計)人: | 宋愛波;涂金林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/242;G06F16/2455 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 sparkstreaming 電力系統(tǒng) 日志 數(shù)據(jù) 實時處理 方法 | ||
本發(fā)明公開了一種基于Spark Streaming的電力系統(tǒng)日志數(shù)據(jù)實時處理方法,首先針對全網(wǎng)日志數(shù)據(jù)流急劇增長,處理系統(tǒng)獲取的日志數(shù)據(jù)的類別以及相關屬性變化多樣的問題,預定義統(tǒng)計模型,降低處理系統(tǒng)預處理的時間;然后通過對塊間隔和處理時間關系的分析,發(fā)現(xiàn)基于塊間隔的動態(tài)調(diào)整,能夠使查詢?nèi)蝿盏奶幚頃r間達到最優(yōu);最后基于該方法設計了高效的動態(tài)調(diào)整策略,及時探尋到最優(yōu)的塊間隔,減少查詢?nèi)蝿盏奶幚頃r間,借此分析電力調(diào)度自動化系統(tǒng)的運行狀態(tài)和軌跡,實現(xiàn)電力系統(tǒng)健康狀況定性到定量的分析轉(zhuǎn)換。本發(fā)明從而為電力系統(tǒng)日志數(shù)據(jù)的有效管理提供了一種高效、易用的實時處理方法。
技術領域
本發(fā)明涉及一種電力系統(tǒng)日志數(shù)據(jù)實時處理方法,尤其涉及一種基于SparkStreaming的電力系統(tǒng)日志數(shù)據(jù)實時處理方法。
背景技術
電力是現(xiàn)代化社會運轉(zhuǎn)和發(fā)展的基礎產(chǎn)業(yè),電力系統(tǒng)的安全和穩(wěn)定關系到人類社會生活的方方面面。電力調(diào)度自動化系統(tǒng)作為一種數(shù)據(jù)處理系統(tǒng),其包含電力系統(tǒng)運行信息、分析決策工具和控制手段。電力調(diào)度自動化系統(tǒng)在運行過程中會產(chǎn)生狀態(tài)、調(diào)試、錯誤等數(shù)據(jù),這類數(shù)據(jù)統(tǒng)稱為日志數(shù)據(jù)。日志數(shù)據(jù)作為電力系統(tǒng)運行信息的一種表現(xiàn)形式,對其進行快速、準確的分析,對于電力系統(tǒng)安全穩(wěn)定運行具有重要的保障作用。
隨著調(diào)度自動化系統(tǒng)規(guī)模的不斷擴大,電力系統(tǒng)需要實時處理的日志數(shù)據(jù)量急劇增加。面對全網(wǎng)實時日志數(shù)據(jù)呈現(xiàn)出大數(shù)據(jù)量,增長迅速的特點,對其計算、分析、仿真以及優(yōu)化等需求遠遠超過普通計算系統(tǒng)的承受能力,傳統(tǒng)的日志管理手段已無法滿足海量日志數(shù)據(jù)的管理和分析需求。早先的流式處理系統(tǒng)通過丟棄一部分輸入數(shù)據(jù)流(例如分級卸載),選擇具有鮮明特點的數(shù)據(jù)進行處理,或者通過靈活的增加額外的資源。但通常來說,丟棄數(shù)據(jù)不是一個很好的選擇,很有可能丟棄的數(shù)據(jù)非常重要,因而影響結果的正確性;而且對于高吞吐率的實時數(shù)據(jù)流,預先的獲取相關資源,這種代價是巨大的。
為了確定系統(tǒng)運行的趨勢和模式、查明故障等,分析電力調(diào)度自動化系統(tǒng)的運行狀態(tài)和軌跡,需要做到在線實時分析。受到磁盤性能的影響,日志數(shù)據(jù)未能及時處理導致數(shù)據(jù)丟失,必須借助內(nèi)存的快速處理能力。同時,面對系統(tǒng)資源和狀態(tài)的不斷變化,處理系統(tǒng)要能夠及時的做出調(diào)整,確保系統(tǒng)的處理時間達到最優(yōu)。
針對以上問題,研究者們開始關注如何利用內(nèi)存資源突破I/O瓶頸,提高數(shù)據(jù)吞吐率,加快數(shù)據(jù)的處理速度。Apache Spark就是其中脫穎而出的開源計算框架。Spark基于內(nèi)存的迭代計算框架能夠在內(nèi)存中多次操作特定數(shù)據(jù)集,實現(xiàn)大數(shù)據(jù)的快速分析處理。SparkStreaming作為其上層工具,提供基于間隔的實時處理功能。數(shù)據(jù)流劃分成若干數(shù)據(jù)塊的時間稱為塊間隔,若干數(shù)據(jù)塊組合成一個批次的時間稱為批間隔。這種方式能夠很好的滿足電力調(diào)度自動化系統(tǒng)對某個時間段內(nèi)數(shù)據(jù)的實時處理需求。
一般情況下,如果Spark Streaming處理數(shù)據(jù)的并行度(一個批次中包含數(shù)據(jù)塊的數(shù)量=批間隔/塊間隔)越低,那么資源的開銷和利用率將會越小,例如任務的創(chuàng)建、交互等。而大規(guī)模的并行計算將會導致大量的資源開銷,同時伴隨著極高的資源利用率。為了及時的了解電力調(diào)度自動化系統(tǒng)的運行狀態(tài)和軌跡,實現(xiàn)電力系統(tǒng)健康狀況定性到定量的分析轉(zhuǎn)換,這就需要確保查詢?nèi)蝿漳軌蜻_到較低的資源開銷和更高的資源利用率。為了權衡資源的開銷和利用率,在面對不同的系統(tǒng)狀態(tài)和資源變化時,處理的并行度需要及時調(diào)整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經(jīng)東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710951969.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Flume與SparkStreaming整合的方法及系統(tǒng)
- 一種基于流處理的內(nèi)澇數(shù)據(jù)處理系統(tǒng)及其處理方法
- 基于Spark Streaming讀取Kafka數(shù)據(jù)的處理方法
- 一種大規(guī)模電力設備監(jiān)測報警數(shù)據(jù)實時處理方法及系統(tǒng)
- 一種基于Spark流式處理的人臉實時抓拍反饋系統(tǒng)
- 一種數(shù)據(jù)修復方法、電子設備及存儲介質(zhì)
- 一種基于用戶畫像的機器人客服算法
- 一種改進CluStream算法的方法、裝置、設備和介質(zhì)
- 一種基于Sparkstreaming實時處理大批量數(shù)據(jù)的方法
- 一種基于NiFi更新Delta Lake的方法





