[發明專利]數據處理方法、裝置、電子設備及計算機可讀存儲介質在審
| 申請號: | 201811446323.8 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109559172A | 公開(公告)日: | 2019-04-02 |
| 發明(設計)人: | 霍海龍;龐丹;張雪媛 | 申請(專利權)人: | 北京車聯天下信息技術有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙) 11371 | 代理人: | 郭新娟 |
| 地址: | 100000 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 客戶流失 歷史行為 數據處理 計算機可讀存儲介質 客戶 電子設備 樣本類型 樣本 預處理 數據挖掘技術 計算復雜度 處理效率 輸出特征 輸入特征 樣本數據 分箱 概率 申請 | ||
本發明公開了一種數據處理方法、裝置、電子設備及計算機可讀存儲介質,涉及數據挖掘技術領域,本發明所述的數據處理方法包括:獲取多個客戶樣本的歷史行為特征;將多個客戶樣本的歷史行為特征進行分箱,得到不同客戶樣本類型分別對應的歷史行為特征;將每種客戶樣本類型對應的歷史行為特征作為用于訓練客戶流失模型的一個輸入特征,將每種客戶樣本類型對應的客戶流失概率作為用于訓練客戶流失模型的一個輸出特征,訓練所述客戶流失模型。本申請的目的在于提供一種數據處理方法、裝置、電子設備及計算機可讀存儲介質,對客戶樣本數據進行預處理,降低客戶流失模型的計算復雜度,提高處理效率。
技術領域
本申請涉及數據挖掘技術領域,尤其是涉及一種數據處理方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
根據最近一次購買情況、消費金額、消費頻率等指標可以對重要客戶進行客戶行為分析,在重要客戶流失時發出預警。
在對客戶流失情況進行預測時,可以使用預設的指標和訓練的客戶流失模型來預測,但是由于在客戶流失模型訓練和使用中,進行數據處理的復雜度比較高,導致處理效率較低。
發明內容
有鑒于此,本申請的目的在于提供一種數據處理方法、裝置、電子設備及計算機可讀存儲介質,對客戶樣本數據進行預處理,降低客戶流失模型的計算復雜度,提高處理效率。
第一方面,本申請實施例提供了一種數據處理方法,包括:
獲取多個客戶樣本的歷史行為特征;
將多個客戶樣本的歷史行為特征進行分箱,得到不同客戶樣本類型分別對應的歷史行為特征;
將每種客戶樣本類型對應的歷史行為特征作為用于訓練客戶流失模型的一個輸入特征,將每種客戶樣本類型對應的客戶流失概率作為用于訓練客戶流失模型的一個輸出特征,訓練所述客戶流失模型。
結合第一方面,本申請實施例提供了第一方面的第一種可能的實施方式,其中,獲取多個客戶樣本的歷史行為特征之后,將多個客戶樣本的歷史行為特征進行分箱之前,還包括:
計算獲取的每個客戶樣本的歷史行為特征與其它多個客戶樣本的歷史行為特征的相關性;
剔除與其它多個客戶樣本的歷史行為特征的相關性低于第一預設閾值的客戶樣本的歷史行為特征。
結合第一方面,本申請實施例提供了第一方面的第二種可能的實施方式,其中,所述將多個客戶樣本的歷史行為特征進行分箱,包括:
根據每個客戶樣本的歷史行為特征對客戶流失概率的影響度,和多個客戶樣本的歷史行為特征的數量,確定每個客戶樣本的歷史行為特征的信息增益率;
在所述信息增益率小于第二預設閾值的情況下,對對應的客戶樣本的歷史行為特征進行等距分割。
結合第一方面的第一種可能的實施方式,本申請實施例提供了第一方面的第三種可能的實施方式,其中,根據以下步驟計算獲取的每個客戶樣本的歷史行為特征與其它多個客戶樣本的歷史行為特征的相關性:
根據獲取的多個客戶樣本的歷史行為特征的數量,和每個客戶樣本的歷史行為特征與客戶流失概率之間的關系類型,確定回歸方程;
利用所述回歸方程,計算獲取的每個客戶樣本的歷史行為特征與其它多個客戶樣本的歷史行為特征的相關性。
結合第一方面,本申請實施例提供了第一方面的第四種可能的實施方式,其中,所述歷史行為特征包括:車輛狀態特征、消費情況特征和行駛軌跡特征。
第二方面,本申請實施例還提供一種數據處理裝置,包括:
獲取模塊,用于獲取多個客戶樣本的歷史行為特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京車聯天下信息技術有限公司,未經北京車聯天下信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811446323.8/2.html,轉載請聲明來源鉆瓜專利網。





