[發明專利]一種基于梯度提升決策樹的竊電檢測方法在審
| 申請號: | 202011141946.1 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112257784A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 邵振國;許良財;陳飛雄;張嫣;張承圣 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/06 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 梯度 提升 決策樹 檢測 方法 | ||
本發明涉及一種基于梯度提升決策樹的竊電檢測方法。將用戶的歷史日用電量作為樣本特征,讓單一樹模型根據優化目標自動篩選最優分割特征和分割閾值,并根據迭代次數構建多個樹模型組成強分類器,完成竊電檢測模型訓練,而后通過訓練后的竊電檢測模型實現竊電檢測。本發明能夠實現正常用戶和竊電用戶的分類。
技術領域
本發明涉及一種基于梯度提升決策樹的竊電檢測方法。
背景技術
竊電行為不僅會給電網公司帶來較大的經濟損失,而且會影響電網的安全穩定運行,因此,研究高準確率的竊電檢測方法具有十分重要的意義。
傳統的竊電檢測主要依靠技術人員定期巡檢或無人機拍攝等方式監測電表不僅效率低下,而且及時性差。隨著硬件反竊電技術日趨完善,現在電表的安全性已極大提升,但在上傳用戶電表計量數據的通信環節仍存在篡改數據的可能。
現有的基于數據挖掘的竊電檢測方法主要有三類:基于回歸、基于聚類、基于分類。
基于回歸的竊電檢測方法主要結合負荷預測算法,利用歷史用電數據訓練回歸模型,并預測未來一段時期的用電數據,此后通過實際用電數據和預測用電數據之間的偏差判斷用戶是否異常用電,該類方法受用戶用電隨機性影響較大。
基于聚類的竊電檢測方法屬于無監督學習,通過計算樣本之間的距離將樣本聚為多個類別,并根據樣本與類簇之間的距離判斷樣本是否異常。該類方法不需要帶有標簽的樣本,在樣本標簽缺乏的情況下,適用性較強。但聚類方法的參數設置主觀性強,算法復雜程度高,且用戶用電行為多樣化,可能存在多個少數類群,使得基于聚類的竊電檢測方法難以準確識別竊電用戶。
竊電檢測本質上是一個二元分類問題,但現有的基于分類的竊電檢測方法大多沒有考慮用電數據的缺失問題,對用電數據填充較敏感,會使檢測結果出現較大差異,而電網中的用電數據缺失問題仍然比較嚴重,因此,現有方法難以應用于電網中的用戶竊電檢測。此外,一些基于分類的竊電檢測方法受樣本類別不平衡影響大,檢測精度難以達到較高水平。
為了從數據層面鑒別竊電用戶,本發明提出一種基于梯度提升決策樹的竊電檢測方法。該方法以樹模型作為基分類器,基于所有樣本特征和標簽的對應關系,選擇最優分割特征和分割閾值,并形成樣本劃分規則。此后通過集成學習的方式,將多個單一樹模型依次迭代,構成強分類器實現正常用戶和竊電用戶的分類。
發明內容
本發明的目的在于提供一種基于梯度提升決策樹的竊電檢測方法,能夠實現正常用戶和竊電用戶的分類。
為實現上述目的,本發明的技術方案是:一種基于梯度提升決策樹的竊電檢測方法,將用戶的歷史日用電量作為樣本特征,讓單一樹模型根據優化目標自動篩選最優分割特征和分割閾值,并根據迭代次數構建多個樹模型組成強分類器,完成竊電檢測模型訓練,而后通過訓練后的竊電檢測模型實現竊電檢測。
在本發明一實施例中,若用戶的歷史日用電量存在缺失,則通過日用電量的缺失值填充方法,根據缺失電量前后數據的缺失情況填補缺失電量。
在本發明一實施例中,竊電檢測模型訓練過程中,采用網格搜索和K折交叉驗證實現竊電檢測模型的參數尋優。
在本發明一實施例中,該方法具體實現如下:
步驟S1、利用pandas庫中read_csv操作讀取原始數據集,其表示為(Name,X,Y),其中,Name表示用戶名,由于Name不參與竊電檢測模型訓練,因此利用pandas庫提供的drop操作,刪除該列特征;X代表用電特征,其數值即為用戶用電數據;Y代表標簽,共有兩類,1對應竊電用戶,0對應正常用戶;而后,分別劃分用電特征和標簽,并存儲為變量名pd_features和pd_labels;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141946.1/2.html,轉載請聲明來源鉆瓜專利網。





