[發明專利]一種基于改進隨機森林算法的電壓缺失數據辨識方法在審
| 申請號: | 202110397003.3 | 申請日: | 2021-04-13 |
| 公開(公告)號: | CN113468796A | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 李紹堅;韋明超;羅淑芳;莫江婷;甘靜;夏斌;王益成;周覓路;韋社敏;魯林軍;陳柏昌;黃偉;陶海峰 | 申請(專利權)人: | 廣西電網有限責任公司南寧供電局 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06K9/62;G06Q10/04;G06Q50/06;G06F111/08 |
| 代理公司: | 廣州市專注魚專利代理有限公司 44456 | 代理人: | 柴燕 |
| 地址: | 530029 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 隨機 森林 算法 電壓 缺失 數據 辨識 方法 | ||
本發明公開了一種基于改進隨機森林算法的電壓缺失數據辨識方法,其中方法步驟包括:獲取電網歷史數據,選擇缺失數據所有對應的關聯屬性,進行不同的屬性劃分;通過屬性綜合加權計算得到學習樣本集合;對學習樣本進行重復抽樣,得到若干個相似樣本集合;將所述相似樣本集合作為輸入,訓練隨機森林回歸模型;提高隨機森林回歸預測精度;將所有決策樹的最終預測均值作為填補結果,評估填補結果,填補結果在容忍范圍則填補完成。通過本發明提高對缺失數據的辨識精度,從而提高了電網缺失值的填補精度。
技術領域
本發明電力系統數據融合中常出現的電壓值缺失問題的技術領域,尤其涉 及一種基于改進隨機森林算法的電壓缺失數據辨識方法。
背景技術
隨著電網的高速發展,各類系統對數據的需求越來越依賴,然而在數據采 集和傳輸的過程中,常因通道量測和人為等因素,不可避免導致部分數據的丟 失或異常。缺失或異常的數據對系統的運行以及進一步的數據分析都會造成影 響,導致輸出結果的異常。
盡管目前的研究對缺失數據的填補都取得了較好的效果,但是卻較少對缺 失值屬性的關聯屬性進行研究和分析,缺失值的關聯屬性對填補結果有較大影 響,基于屬性綜合加權的改進隨機森林算法,對缺失數據進行辨識,提高缺失 數據的辨識精度,提高電網缺失值的填補精度。
發明內容
為了克服現有技術的不足,本發明提供了一種基于改進隨機森林算法的電 壓缺失數據辨識方法,實現對缺失數據進行了辨識,提高缺失數據的辨識精度, 提高電網缺失值的填補精度。
為了實現上述發明目的,本發明提供了一種基于改進隨機森林算法的電壓 缺失數據辨識方法,包括以下步驟:
S1:獲取電網歷史數據,選擇缺失數據所有對應的關聯屬性,進行不同的屬 性劃分;
S2:通過屬性綜合加權計算得到學習樣本集合;
S3:對學習樣本進行重復抽樣,得到若干個相似樣本集合;
S4:將所述相似樣本集合作為輸入,訓練隨機森林回歸模型;
S5:通過減少決策樹間的關聯性和提高決策樹的精度,提高隨機森林回歸預 測精度;
S6:將所有決策樹的最終預測均值作為填補結果,評估填補結果,填補結果 在容忍范圍則填補完成。
對所述關聯屬性進行各屬性間的互相關系數計算,互相關系數大于給定閥值 的屬性存入互相關集合HG;
所述關聯屬性的各屬性間的互相關系數計算公式如下,
當皮爾遜系系數用于總體時,如式(1)所示:
X,Y為兩個不同屬性隨機變量,σX,σY分別是X,Y的標準差,cov(X,Y)為協 方差,如式(2)所示:
n表示樣本的數量。
當皮爾遜系系數用于樣本時,如式(3)所示:
xi,yi為變量X,Y對應i的觀測點值,分別為對應X,Y的樣本均值;
通過皮爾遜系數計算各屬性間的互相關系數,選擇互相關系數大于給定閥 值的屬性存入互相關集合HG。
將所述互相關集合HG進行屬性誤差期望計算,屬性誤差期望大于強相關 閥值,存入強相關屬性集合QX;
所述互相關集合HG的屬性誤差期望計算公式如下,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣西電網有限責任公司南寧供電局,未經廣西電網有限責任公司南寧供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110397003.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鼻梁條自動上料裝置
- 下一篇:監測鉆機在鉆探過程中地層變化的裝置及方法





