[發明專利]一種基于決策樹的通信用戶退網預測方法在審
| 申請號: | 201810998919.2 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109146569A | 公開(公告)日: | 2019-01-04 |
| 發明(設計)人: | 龍華;王瑞;邵玉斌;杜慶治 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 決策樹 標號屬性 通信用戶 信息增益 最大信息 權重 退網 人工智能技術 貝葉斯公式 屬性標記 屬性創建 訓練數據 預警模型 信息熵 預測 分枝 構建 子集 排序 創建 | ||
1.一種基于決策樹的通信用戶退網預測方法,其特征在于:
Step1、數據采集:將樣本通信用戶基礎信息與用戶消費行為放入訓練數據集合S中;
其中通信用戶基礎信息包括:用戶號碼,屬性A用戶年齡,屬性B性別、屬性C開戶時間、屬性D客戶等級、屬性E每月消費費用;
用戶消費行為包括:屬性F通話時長、屬性G流量用量、屬性H短信用量、屬性J增值業務用量;
Step2、數據處理:將S集中的每類屬性數據,進行分類;
Step3、將類標號特征值分為n類,其中類標號特征值有t個值,tu為每類所含樣本個數,對于給定的類標號特征值,信息熵可定義為如公式(1)所示:
其中
從S集中抽取屬性ABCDEFGHJ中的任一一個屬性,構成其任一個子集記為Sk(k=A,B,C,D,E,F,G,H,J),在子集Sk中,根據其特征分類分為Skj類(j=1,...,v),其中每一類有Skij(i=1,...,m)個值;
按照分類取值可得各個分類的信息熵:
Step4、計算每個屬性劃分子集的熵為如公式(3)所示:
Step5、用信息增益來衡量熵的期望減少值,則選擇屬性k對S進行劃分獲得的信息增益為如公式(4)所示:
Gain(k)=I(T1,T2,...,Tn)-Ent(k) (4)
Gain(k)代表已知屬性k后導致熵的期望壓縮;
Step6、使用貝葉斯公式其中(k=A,B,C,D,E,F,G,H,J)對訓練數據集中每個屬性取值進行權重判斷;
Step7、構建決策樹,將每個屬性按照其信息增益大小排序,獲得最大信息增益的屬性;創建節點,并以此屬性標記,對屬性的每個值創建分枝;權重最大的屬性值連接下一個屬性;
Step8、根據所構建的決策樹,建立用戶流失預警模型。
2.根據權利要求1所述的基于決策樹的通信用戶退網預測方法,其特征在于:所述Step3中樣本的概率分布越均衡,則信息熵越大,樣本集的混雜程度也越高;將信息熵作為訓練集純凈度的一個度量,熵越小,純凈度越高。
3.根據權利要求1所述的基于決策樹的通信用戶退網預測方法,其特征在于:所述Step5中Gain(k)代表已知屬性k后導致熵的期望壓縮;信息熵越小代表節點越純,基于信息增益的定義,信息增益越大,信息熵的減少量越大,節點趨于純凈,則Gain(k)越大,選擇測試屬性k對分類提供的信息越多。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810998919.2/1.html,轉載請聲明來源鉆瓜專利網。





