[發明專利]一種針對廣域量測電力大數據數據質量的快速在線評估方法在審
| 申請號: | 201811280578.1 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109492683A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 柳永妍;曹孝俊;湯吉鴻;朱軍飛;楊丹;左劍 | 申請(專利權)人: | 國網湖南省電力有限公司;國網湖南省電力有限公司電力科學研究院;國家電網有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q10/06;G06Q50/06 |
| 代理公司: | 長沙市融智專利事務所 43114 | 代理人: | 歐陽迪奇 |
| 地址: | 410007 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大數據 評估規則 評估指標 權重系數 在線評估 廣域 量測 預處理 廣域量測系統 層次分析法 個數百分比 異常值檢測 有效性評估 電力系統 檢測結果 聚類算法 快速評估 在線應用 綜合評估 唯一性 并行化 算法 電網 評估 改進 統計 | ||
1.一種針對廣域量測電力大數據數據質量的快速在線評估方法,其特征在于,包括如下步驟:
步驟1:獲取給定時段內廣域量測系統的實時電力大數據;
步驟2:采用MapReduce并行化K-means聚類算法對確定的電力大數據對象進行快速的預處理:將電力大數據集通過K-means聚類算法分類為若干小數據集,且每個小數據集中的數據對象之間具有相似性;
步驟3:對經過預處理的電力大數據對象采用基于KNN的快速密度峰值異常值檢測算法來進行正確性指標的評估:基于小數據集中每個樣本與其他樣本之間的歐氏距離來計算該樣本的局部密度,并根據局部密度得到KNN距離,然后將局部密度小于預設密度閾值和KNN距離大于預設距離閾值的樣本作為異常數據,并據此評估電力大數據對象的正確性;
步驟4:繼續對經過預處理的電力大數據對象進行評估:基于完整性、唯一性、準確性、一致性和有效性這五個評估指標建立對應的電力大數據質量評估規則,評估規則即判斷數據是否符合評估要求的規則,其中完整性是檢測數據是否存在缺失記錄或缺失字段,唯一性是檢測數據是否存在重復的記錄,準確性是檢測數據值的精度是否符合要求,一致性是檢測同一屬性數據在表達格式上是否一致,有效性是檢測數據是否符合數據格式和值域范圍的要求;
步驟5:利用層次分析法快速確定各評估指標的權重系數:根據步驟3和4中的評估指標和評估規則,采用1-9標度法形成判斷矩陣并檢驗判斷矩陣的一致性,再對判斷矩陣進行列歸一化并計算每一行的平均值,得到評估指標的權重系數;
步驟6:根據電力大數據質量評估規則中的每條評估規則,對經過預處理的電力大數據對象進行快速檢測分析,統計滿足評估規則的數據個數百分比,再根據步驟5中得到的各評估指標權重系數和檢測結果,計算出電力大數據質量的綜合評估值。
2.根據權利要求1所述的一種針對廣域量測電力大數據數據質量的快速在線評估方法,其特征在于,所述步驟2包括以下步驟:
以步驟1中得到的電力大數據對象作為聚類樣本集H={h1,h2,...,hj,...,hn},其中hj為數據對象,將原始數據分成k個類別,其中k≤n,用si(i=1,2,...,k)表示在n個數據對象中選出的k個聚類中心,聚類中心si(i=1,2,...,k)是同一類別數據對象的算數平均值,即
其中Ni為類i的數據對象個數,hi為類i中的數據對象;
對于不屬于聚類中心的數據對象,根據到每一個聚類中心的相似度即歐氏距離進行分配,然后重新計算新的聚類中心即聚類對象的均值,不斷重復此過程直至標準測度函數收斂,標準測度函數為
其中hj為類i中的數據對象,J為聚類樣本集中所有數據的均方差之和。
3.根據權利要求1所述的一種針對廣域量測電力大數據數據質量的快速在線評估方法,其特征在于,所述步驟3包括以下步驟:
在步驟2中得到的每個小數據集中,計算任一樣本xi與其他樣本之間的歐氏距離d(xi,xj),并將計算結果按照升序排列,以對應第k個距離的樣本為Nk(xi),xi的K個最近鄰為:
N(xi)={j∈X|d(xi,xj)≤d(xi,Nk(xi))}
用N(xi)來計算xi的局部密度
其中K=ρN,ρ是數據集的總樣本數N的百分比;
KNN距離為:
其中dij為xi與xj之間的距離;
異常樣本為:局部密度且距離值其中,局部密度閾值為:
距離閾值的定義為:
其中γρ和γδ為經驗參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網湖南省電力有限公司;國網湖南省電力有限公司電力科學研究院;國家電網有限公司,未經國網湖南省電力有限公司;國網湖南省電力有限公司電力科學研究院;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811280578.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多分枝隨機森林數據分類方法
- 下一篇:數據處理方法及裝置





