[發(fā)明專利]一種基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法和設(shè)備有效
| 申請?zhí)枺?/td> | 201910293642.8 | 申請日: | 2019-04-12 |
| 公開(公告)號: | CN110110757B | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計)人: | 高尚;李慧輝;翟明玉;孫世明;陳玉慧;許寒陽;陳寧;季堃;馬潔;唐元合 | 申請(專利權(quán))人: | 國電南瑞科技股份有限公司;國家電網(wǎng)有限公司;國網(wǎng)江蘇省電力有限公司;國電南瑞南京控制系統(tǒng)有限公司;南瑞集團有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/06 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 李淑靜 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 隨機 森林 模型 變電 可疑 數(shù)據(jù) 方法 設(shè)備 | ||
1.一種基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述方法包括以下步驟:
S1、根據(jù)輸變電設(shè)備的類別和周期性規(guī)律,選取多個維度的數(shù)據(jù)構(gòu)建數(shù)據(jù)特征項;
S2、根據(jù)采樣時間遠近為數(shù)據(jù)特征項分配不同的權(quán)重,將分配權(quán)重后的正常數(shù)據(jù)和異常數(shù)據(jù)分別標(biāo)記為正負樣本,并將數(shù)據(jù)集分為K份;
S3、采用K折交叉驗證方法訓(xùn)練隨機森林模型,以正負樣本準(zhǔn)確率平均值為目標(biāo),迭代調(diào)整隨機森林中樹的數(shù)量T,獲得指標(biāo)最優(yōu)時參數(shù)T的值,具體包括:
S3.1、采用K折交叉驗證方法訓(xùn)練模型,每次保留K份數(shù)據(jù)中的一份作為測試數(shù)據(jù),對每棵決策樹抽取剩余K-1份訓(xùn)練數(shù)據(jù)中的一份進行訓(xùn)練,若決策樹的數(shù)量T≤K-1,采用無放回的抽取方法;若TK-1,前K-1棵樹采用無放回抽取方法,其余的樹采取隨機抽取方法;
S3.2、使用測試數(shù)據(jù)測試隨機森林模型的準(zhǔn)確率,當(dāng)超過半數(shù)的決策樹判斷數(shù)據(jù)是正確數(shù)據(jù)時,隨機森林輸出數(shù)據(jù)正確的判斷,否則輸出數(shù)據(jù)異常的判斷;
S3.3、定義隨機森林模型對正樣本、負樣本識別準(zhǔn)確率平均值f,記驗證數(shù)據(jù)中正樣本數(shù)量為P,模型判斷為正確數(shù)據(jù)的數(shù)量為TP,負樣本數(shù)量為N,模型判斷為錯誤數(shù)據(jù)的數(shù)量為TN,則f為:
調(diào)整T的值,重復(fù)步驟S3.1和S3.2,獲得f值最高時T的值;
S4、使用訓(xùn)練好的模型篩查可疑數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述步驟S1中選取設(shè)備數(shù)據(jù)包括:電氣量測、非電氣量測、時間和季節(jié)性數(shù)據(jù)、統(tǒng)計特性數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述步驟S2中根據(jù)采樣時間遠近為數(shù)據(jù)分配不同的權(quán)重具體方法為:為近期的采樣數(shù)據(jù)分配高權(quán)重,為遠期的采樣數(shù)據(jù)分配低權(quán)重,所述近期、遠期的劃分以指定時間期限為基準(zhǔn),所述高低權(quán)重的劃分以指定閾值為基準(zhǔn)。
4.根據(jù)權(quán)利要求1所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述步驟S2中將數(shù)據(jù)集分為K份包括:如果收集到的數(shù)據(jù)集中,正負樣本的比例在指定倍數(shù)以下,則使用隨機抽樣的方法將數(shù)據(jù)分為K份;如果正負樣本的數(shù)量差距超過指定倍數(shù),則通過對正樣本重新采樣并與負樣本組成數(shù)量相當(dāng)?shù)腒份比例平衡樣本集。
5.根據(jù)權(quán)利要求4所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述指定倍數(shù)為2倍。
6.根據(jù)權(quán)利要求4所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述重新采樣具體方法如下:將負樣本隨機平分為K份,再從正樣本中隨機抽取K份正樣本,每份正樣本的數(shù)量與每份負樣本數(shù)量相當(dāng),再將正負樣本一一混合得到K份正負樣本比例平衡的數(shù)據(jù)集。
7.根據(jù)權(quán)利要求1所述的基于隨機森林模型的輸變電可疑數(shù)據(jù)篩查方法,其特征在于,所述步驟S4包括:
根據(jù)訓(xùn)練數(shù)據(jù)的特征項,為待檢測數(shù)據(jù)構(gòu)建相同的特征分量;
以待檢測數(shù)據(jù)作為輸入變量通過訓(xùn)練后的隨機森林模型,隨機森林模型中的每棵決策樹各自獨立判斷該數(shù)據(jù)是否為異常數(shù),若超過半數(shù)的決策樹認為該數(shù)據(jù)為正常數(shù)據(jù),則模型判斷該數(shù)據(jù)正常,若超過半數(shù)的決策樹認為該數(shù)據(jù)為異常數(shù)據(jù),則模型判斷該數(shù)據(jù)可疑。
8.一種計算機設(shè)備,其特征在,所述設(shè)備包括:
一個或多個處理器;
存儲器;以及
一個或多個程序,其中所述一個或多個程序被存儲在所述存儲器中,并且被配置為由所述一個或多個處理器執(zhí)行,所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中的任一項所述的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國電南瑞科技股份有限公司;國家電網(wǎng)有限公司;國網(wǎng)江蘇省電力有限公司;國電南瑞南京控制系統(tǒng)有限公司;南瑞集團有限公司,未經(jīng)國電南瑞科技股份有限公司;國家電網(wǎng)有限公司;國網(wǎng)江蘇省電力有限公司;國電南瑞南京控制系統(tǒng)有限公司;南瑞集團有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910293642.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





