[發明專利]一種基于隨機森林的用電用戶投訴敏感度分析方法在審
| 申請號: | 202111369642.5 | 申請日: | 2021-11-16 |
| 公開(公告)號: | CN114638618A | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 杜清煒;李璐;王丹;張佳佳;彭國濤;郭荊明;王威;馬東升;趙峰;周宏宇 | 申請(專利權)人: | 國網遼寧省電力有限公司阜新供電公司;國家電網有限公司 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06Q30/02;G06Q10/06;G06Q50/06;G06K9/62 |
| 代理公司: | 錦州遼西專利事務所(普通合伙) 21225 | 代理人: | 李輝 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隨機 森林 用電 用戶 投訴 敏感度 分析 方法 | ||
1.一種基于隨機森林的用電用戶投訴敏感度分析模型,其特征是,包括以下步驟:
步驟1:建立隨機森林模型
步驟1.1:隨機選擇n個投訴工單樣本建立訓練集,有放回地對訓練集進行重采樣;
步驟1.2:每次隨機地從所有特征中選擇K個特征,所述特征包括投訴原因、投訴類型及投訴次數指標,然后對步驟1.1中的樣本利用這些特征建立決策樹;
步驟1.3:將步驟1.1和步驟1.2重復m次,組成由m個決策樹構成的隨機森林模型;
步驟1.4:通過每棵樹的投票,綜合確定測試集的具體分類;
步驟2:投訴敏感度數據預處理
步驟2.1:數據清洗,處理冗余變量、低信息變量以及高比例缺失變量;
步驟2.1.1:定義冗余變量為與研究目標無關的變量;
步驟2.1.2:定義冗余變量還包括含有重復信息的特征變量;
步驟2.1.3:定義用電用戶投訴沒有顯著貢獻度的變量為低信息變量,將數值變量變異系數小于0.15、類別變量屬性集中度大于95%的作為低信息變量;
步驟2.2:數據轉換
經過初步數據清洗后,對文本類型特征進行處理,將其類別屬性數值化;
步驟2.2.1:多值有序特征轉換
將變量存在多個值并且這些值之間存在有序遞進關系的特征定義為多值有序特征,將多值有序特征的類別抽象成模型可以識別的特征值;
步驟2.2.2:多值無序特征轉換
將指變量存在多個值并且這些值之間是無規律、不存在遞進關系的特征定義為多值無序特征,通過獨熱編碼方式對多值無序特征進行處理;
步驟2.3:異常值處理
當發現異常數據時,采用相鄰多個時刻正常數據的平均值來替換該異常值,從而降低噪聲對用電用戶投訴敏感敏感度分析的影響,平均值的計算如下式所示:
其中,xt表示第t時刻對應的值,m為前相鄰時刻正常數據的記錄數;
步驟2.4:數據標準化
采用Min-Max標準化來對數值字段數據進行數據標準化處理;
在標準化過程中,若遇到某些特征字段值的最大值和最小值一樣時,則直接讓該字段的值都為0.5,不進行線性變換,Min-Max標準化如下式所示:
其中,n為數據的記錄數,max(xj)特征字段的最大值,min(xj)為特征字段的最小值,xi為特征字段的值,yi表示為標準化之后的值;
步驟3:經過數據預處理后初步建立起投訴風險向量體系,對電力用戶投訴風險特征向量篩選;
步驟3.1:相關性檢驗,通過皮爾森系數檢驗各特征變量的相關性,衡量變量之間線性關聯性的程度,相關系數越接近于0,變量之間的相關性就越弱;相關系數的絕對值越大,變量之間的相關性就越強;
步驟3.2:特征重要性計算,經過步驟2處理后剩余變量代入步驟1建立的模型進行計算,通過袋外數據分別計算出在原始樣本數據中各特征變量相對于所有特征變量的重要性;
步驟4:用電用戶投訴敏感度分析
步驟4.1:模型評價
步驟4.1.1:建立混淆矩陣
為了量化表示分類器的性能,通過混淆矩陣設計度量指標用來評價模型的分類效果,用由精確率和召回率組合而成的調和平均數F-mean值和幾何平均數G-mean值,作為綜合評價指標來衡量模型的整體分類性能;
步驟4.1.2:衡量穩健性分類器模型
用訓練集和測試集上預測準確率的變化程度大小來衡量分類器模型的穩健性,即:
穩定性=精度變化率=P測試集-P訓練集
步驟4.1.3:在評價穩健性分類器模型時,使用ROC曲線下面的AUC值進行衡量;
ROC曲線以假正率FPR作為橫坐標,真正率TPR作為縱坐標,反映假正率和真正率之間的關系;
ROC曲線下的面積代表著AUC值,將AUC值作為評價標準,分類器模型的分類效果越好,其對應的AUC值越大;
步驟5:改進原始數據集
步驟5.1:SMOTE算法
對少數類樣本的特征進行分析處理,并根據這些特征人為地增加新的少數類樣本;
步驟5.1.1:使用歐氏距離從T個少數類樣本中找出特征向量xi附近的k個近鄰樣本點,記為xi(near),near∈{1,…,k}。
步驟5.1.2:再從這k個近鄰樣本中隨機選擇樣本xi(nn),然后隨機生成0到1之間的數字,合成一個新的少數類樣本xi1;
xi1=xi+rand(0,1)*(xi(nn)-xi)
步驟5.1.3:對步驟5.1.2重復N次,合成N個新樣本:xinew,new∈{1,…,N},對所有T個少數類樣本進行上述操作得到NT個少數類新樣本;
步驟5.2:編輯最近鄰規則(ENN)算法,即欠抽樣算法,如果在樣本的3個最近鄰樣本中有2個或者2個以上的樣本類別與這個樣本所屬的類別不一致,那么就將該樣本刪除;
步驟6:重復步驟4、步驟5,得到最終的樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網遼寧省電力有限公司阜新供電公司;國家電網有限公司,未經國網遼寧省電力有限公司阜新供電公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111369642.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于通用瀏覽器的零信任單包認證系統及方法
- 下一篇:輪轂托架構造





