[發明專利]基于隨機森林的停電敏感用戶預測方法、系統、存儲介質及計算機設備有效
| 申請號: | 202110021069.2 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112766550B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 姜磊;梁立江;譚曉鵬;劉倩;劉衛;朱亞雯 | 申請(專利權)人: | 佰聆數據股份有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q10/063;G06Q50/06;G06N20/20 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510663 廣東省廣州市高新技術產業開*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 隨機 森林 停電 敏感 用戶 預測 方法 系統 存儲 介質 計算機 設備 | ||
1.基于隨機森林的停電敏感用戶預測方法,其特征在于,包括以下步驟:
S1、從數據源中采集停電類、工單類、電費類及標簽類數據;
S2、設計指標體系,從停電信息、用戶信息、客戶標簽三個維度進行指標數據提取;其中,停電信息維度從停電次數、停電時長、停電類型和影響人數四個方面設計指標,用戶信息維度從用戶類型、合同容量、欠費情況、關聯手機數三個方面設計指標,客戶標簽維度從電費風險、頻繁投訴、催費短信訂閱、信用等級四個方面設計指標;
指標設計包括指標名稱、計算規則、考察期和評價規則的設計,并明晰指標的統計范圍;在統計范圍的考量上,停電次數、欠費情況、停電投訴指標用預設周期的時間,停電時長、停電類型、影響人數指標用最近一次的指標信息,用戶類型、合同容量、電費風險、頻繁投訴、催費短信訂閱、信用等級指標采用最近更新的指標信息;
S3、提取用于模型構建的數據,提取出第一數據周期范圍中對停電事件未發生投訴或者意見的用戶,構建模型的基礎用戶群;提取出第二數據周期范圍中對停電事件發生投訴或者意見的用戶,構建模型的敏感投訴用戶目標組;提取出第二數據周期范圍中對停電事件未發生投訴或者意見的用戶,構建模型的敏感投訴用戶對照組;最后將基礎用戶群、目標組、對照組所組成的數據集劃分為訓練集和測試集;
S4、對來源于不同業務系統的用于停電敏感用戶預測的數據進行預處理,并按戶進行數據整合得到多維度停電指標信息寬表;
S5、構建停電敏感用戶預測模型,以停電信息、用戶信息、客戶標簽三個維度下的指標為基礎,利用分類算法對客戶未來是否屬于停電敏感類型進行預測;
S6、通過停電敏感用戶預測模型,輸出潛在停電敏感用戶清單;然后結合用戶的歷史投訴工單情況,將停電敏感用戶按規則分為停電敏感高、中、低風險用戶,輸出標記停電敏感標簽用戶清單。
2.根據權利要求1所述的停電敏感用戶預測方法,其特征在于,步驟S1中停電類數據包括計劃停電、故障停電及停電時間數據;工單類數據包括用電申請、投訴工單及意見工單數據;電費類數據包括用電客戶、應收電費、實收電費及收費記錄數據;標簽類數據包括電費風險標簽、頻繁投訴標簽及信用標簽數據。
3.根據權利要求1所述的停電敏感用戶預測方法,其特征在于,步驟S5中停電敏感用戶預測模型采用隨機森林算法模型,隨機森林算法模型的構建過程包括步驟:
S51、采樣合成少數類過采樣技術SMOTE進行樣本均衡處理,對少數類樣本進行分析,并根據少數類樣本人工合成新樣本添加到數據集中;
S52、對均衡后的樣本進行隨機森林模型構建,并利用ROC曲線以及AUC值對隨機森林模型進行初步評估,同時結合混淆矩陣對隨機森林模型的初步效果進行評價;
S53、利用網格搜索的方式,在參數范圍進行窮舉搜索,對隨機森林模型的參數進行調整優化。
4.根據權利要求3所述的停電敏感用戶預測方法,其特征在于,步驟S53中需要調整優化的參數包括不純度的衡量指標、隨機森林樹的數量、限制分枝時考慮的特征個數、樹的最大深度、一個節點在分枝后的每個子節點最少包含的樣本數量及一個節點必須包含得分最小樣本數。
5.根據權利要求3所述的停電敏感用戶預測方法,其特征在于,步驟S52中結合混淆矩陣得出隨機森林模型的準確率、精度、召回率對隨機森林模型的初步效果進行評價:
對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比為準確率;準確率Accuracy的計算方式為:
Accuracy=(TP+TN)/(TP+TN+FP+FN)
精度計算的是對正類預測正確的樣本數,占預測是正類的樣本數的比例,精度Precision的計算方式如下:
Precision=TP/(TP+FP)
召回率計算的是對正類預測正確的樣本數,占實際是正類的樣本數的比例,召回率Recall的計算方式如下:
Recall=TP/(TP+FN)
其中,TP為被判定為正樣本,事實上也是正樣本的樣本數;TN為被判定為負樣本,事實上也是負樣本的樣本數;FP為被判定為正樣本,但事實上是負樣本的樣本數;FN為被判定為負樣本,但事實上是正樣本的樣本數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佰聆數據股份有限公司,未經佰聆數據股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110021069.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種爐管清焦的工藝
- 下一篇:一種無對接快速通航的新型升船機及其工作方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





