[發明專利]狀態分析模型構建方法、分析方法及裝置在審
| 申請號: | 201910141206.9 | 申請日: | 2019-02-25 |
| 公開(公告)號: | CN111612491A | 公開(公告)日: | 2020-09-01 |
| 發明(設計)人: | 楊凱迪;謝梁 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06K9/62 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 鄧超 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 狀態 分析 模型 構建 方法 裝置 | ||
1.一種狀態分析模型構建方法,其特征在于,包括:
獲取多個訓練用戶在預設時間段內的訓練特征數據;
對所述訓練特征數據進行分類操作,獲得分類結果;
對所述分類結果進行證據權重WoE變換,獲得每一訓練特征數據對應的每一分類的辨識度;
利用所述分類結果構建目標特征的回歸模型,根據所述回歸模型獲得每一訓練特征數據對應的特征系數和截距值;
根據所述辨識度、所述每一訓練特征數據對應的特征系數和所述截距值構建所述狀態分析模型。
2.根據權利要求1所述的方法,其特征在于,所述對所述訓練特征數據進行分類操作,獲得分類結果,包括:
對連續型的訓練特征數據采用隨機森林映射法進行分類操作,對離散型的訓練特征數據采用Greenacre's分類合并法進行分類操作,獲得分類結果。
3.根據權利要求2所述的方法,其特征在于,所述對連續型的訓練特征數據采用隨機森林映射法進行分類操作,包括:
對每一連續型的訓練特征數據進行排序,并根據預設深度對排序后的訓練特征數據進行預分類,獲得多個聚合分裂點;
計算每一所述聚合分裂點對應的信息增益,將最大的信息增益對應的聚合分裂點作為目標聚合分裂點。
4.根據權利要求3所述的方法,其特征在于,所述計算每一所述聚合分裂點對應的信息增益,包括:
利用g(D,A)=H(D)-H(D|A)計算獲得每一聚合分裂點對應的信息增益;
其中,H(D)為所述排序后的訓練特征數據的熵,H(A)為通過聚合分裂點A對所述排序后的訓練特征數據進行劃分后的熵。
5.根據權利要求2所述的方法,其特征在于,對離散型的訓練特征數據采用Greenacre's分類合并法進行分類操作,包括:
構建每一離散型的訓練特征數據對應的列聯表,所述列聯表包括多個類別;
利用分層聚類算法將所述列聯表中的多個類別進行多次聚類合并,得到一個類別,計算每次聚類結果對應的卡方值;
根據各個聚類結果的卡方值和對應的預設自由度,獲得對應的對數值,將最小的對數值對應的聚類結果作為目標聚類結果。
6.根據權利要求1所述的方法,其特征在于,所述對所述分類結果進行證據權重WoE變換,獲得每一訓練特征數據對應的每一分類的辨識度,包括:
當所述訓練特征數據的類型為二分類時,根據計算每一訓練特征數據對應的每一分類的辨識度;
當所述訓練特征數據的類型為連續型或多分類時,根據計算每一訓練特征數據對應的每一分類的辨識度;
其中,Bi為第i組的第一類型用戶的數量,Gi為第i組的第二類型用戶的數量,BT為第一類型用戶的數量,GT為第二類型用戶的總數量,Recordsi為第i組所有用戶的數量。
7.根據權利要求1所述的方法,其特征在于,所述狀態分析模型為:
其中,為預設的基礎分值,pdo為預設的好壞比,odds為預設的初始值;
WoEi為第i個訓練特征數據對應的每一分類的辨識度,βi為第i個訓練特征數據對應所述特征系數,n為訓練特征個數,α為所述截距值。
8.根據權利要求1所述的方法,其特征在于,在獲取多個訓練用戶在預設時間段內的訓練特征數據之后,所述方法,還包括:
采用隨機森林預測法對所述訓練特征數據中的缺失值進行補齊操作,以及對所述訓練特征數據中的異常值進行刪除操作。
9.一種用戶狀態分析方法,其特征在于,所述方法包括:
獲取數據平臺中待測用戶的至少一個特征數據;
利用如權利要求1-8任一項構建的狀態分析模型對所述至少一個特征數據進行分析,獲得所述待測用戶對應的狀態分值;
根據所述狀態分值確定所述待測用戶的狀態信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910141206.9/1.html,轉載請聲明來源鉆瓜專利網。





