[發(fā)明專利]用戶流失預測方法和裝置在審
| 申請?zhí)枺?/td> | 201610818511.3 | 申請日: | 2016-09-13 |
| 公開(公告)號: | CN107818376A | 公開(公告)日: | 2018-03-20 |
| 發(fā)明(設(shè)計)人: | 唐維東 | 申請(專利權(quán))人: | 中國電信股份有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06K9/62 |
| 代理公司: | 中國國際貿(mào)易促進委員會專利商標事務(wù)所11038 | 代理人: | 許蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用戶 流失 預測 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種用戶流失預測方法和裝置。
背景技術(shù)
當前,企業(yè)在注重吸引和發(fā)展新用戶的同時,更要重視現(xiàn)有的用戶。而留住現(xiàn)有用戶的前提是了解現(xiàn)有用戶,預測用戶流失的可能性,在用戶體現(xiàn)出流失征兆之前采取相應(yīng)的挽留措施,可以預防用戶流失,提高企業(yè)的經(jīng)營效益。
在現(xiàn)有的用戶流失預測模型建模的過程中,采用隨機抽取的樣本數(shù)據(jù)進行建模。然而,由于樣本的隨機性使預測模型的準確性較低,進而降低了預測用戶是否流失的準確率。
發(fā)明內(nèi)容
本發(fā)明實施例所要解決的一個技術(shù)問題是:如何提高用戶流失預測的準確性。
根據(jù)本發(fā)明實施例的第一個方面,提供了一種用戶流失預測方法,包括:對用戶數(shù)據(jù)進行分類,用戶數(shù)據(jù)被標記為已流失用戶和未流失用戶;從用戶數(shù)據(jù)的各個類別中分別抽取部分用戶數(shù)據(jù);根據(jù)抽取的用戶數(shù)據(jù)的特征訓練分類模型,獲得分類器;采用分類器預測待測用戶是否會流失。
在一個實施例中,對用戶數(shù)據(jù)進行分類包括:根據(jù)用戶數(shù)據(jù)中與用戶流失相關(guān)的特征,采用聚類的方法對用戶數(shù)據(jù)進行分類。
在一個實施例中,從用戶數(shù)據(jù)的各個類別中抽取部分用戶數(shù)據(jù)包括:從用戶數(shù)據(jù)的各個類別中分別抽取預設(shè)比例的用戶數(shù)據(jù)。
在一個實施例中,根據(jù)抽取的用戶數(shù)據(jù)的特征訓練分類模型,獲得分類器包括:從抽取的用戶數(shù)據(jù)中隨機選擇若干組用戶數(shù)據(jù);采用選擇的若干組用戶數(shù)據(jù)分別訓練決策樹模型;將采用選擇的若干組用戶數(shù)據(jù)訓練得到的若干決策樹共同作為分類器。
在一個實施例中,根據(jù)抽取的用戶數(shù)據(jù)的特征訓練分類模型包括:統(tǒng)計抽取的用戶數(shù)據(jù)中各個特征的所有取值的種類;如果特征的所有取值的種類大于預設(shè)值,將特征的每個取值分別作為抽取的用戶數(shù)據(jù)的新的特征,并且刪除所有取值的種類大于預設(shè)值的特征;根據(jù)處理后的抽取的用戶數(shù)據(jù)的特征訓練分類模型。
在一個實施例中,根據(jù)抽取的用戶數(shù)據(jù)的特征訓練分類模型包括:從抽取的用戶數(shù)據(jù)中,采用套索算法選擇特征;根據(jù)抽取的用戶數(shù)據(jù)的選擇的特征訓練分類模型。
在一個實施例中,采用以下方法獲得標記的用戶數(shù)據(jù):獲取第一時間單元中的具有若干特征的用戶數(shù)據(jù);根據(jù)第一時間單元中的用戶數(shù)據(jù)在第二時間單元是否流失的狀態(tài),標記第一時間單元中的用戶數(shù)據(jù);其中,第一時間單元為第二時間單元的相鄰在先時間單元。
根據(jù)本發(fā)明實施例的第二個方面,提供一種用戶流失預測裝置,包括:用戶數(shù)據(jù)分類模塊,用于對用戶數(shù)據(jù)進行分類,用戶數(shù)據(jù)被標記為已流失用戶和未流失用戶;用戶數(shù)據(jù)抽取模塊,用于從用戶數(shù)據(jù)的各個類別中分別抽取部分用戶數(shù)據(jù);模型訓練模塊,用于根據(jù)抽取的用戶數(shù)據(jù)的特征訓練分類模型,獲得分類器;用戶流失預測模塊,用于采用分類器預測待測用戶是否會流失。
在一個實施例中,用戶數(shù)據(jù)分類模塊進一步用于根據(jù)用戶數(shù)據(jù)中與用戶流失相關(guān)的特征,采用聚類的方法對用戶數(shù)據(jù)進行分類。
在一個實施例中,用戶數(shù)據(jù)抽取模塊進一步用于從用戶數(shù)據(jù)的各個類別中分別抽取預設(shè)比例的用戶數(shù)據(jù)。
在一個實施例中,模型訓練模塊包括:分組數(shù)據(jù)抽取單元,用于從抽取的用戶數(shù)據(jù)中隨機選擇若干組用戶數(shù)據(jù);決策樹訓練單元,用于采用選擇的若干組用戶數(shù)據(jù)分別訓練決策樹模型;分類器形成單元,用于將采用選擇的若干組用戶數(shù)據(jù)訓練得到的若干決策樹共同作為分類器。
在一個實施例中,模型訓練模塊包括:特征取值種類統(tǒng)計單元,用于統(tǒng)計抽取的用戶數(shù)據(jù)中各個特征的所有取值的種類;特征轉(zhuǎn)換單元,用于當特征的所有取值的種類大于預設(shè)值時,將特征的每個取值分別作為抽取的用戶數(shù)據(jù)的新的特征,并且刪除所有取值的種類大于預設(shè)值的特征;第一模型訓練單元,用于根據(jù)處理后的抽取的用戶數(shù)據(jù)的特征訓練分類模型。
在一個實施例中,模型訓練模塊包括:特征選擇單元,用于從抽取的用戶數(shù)據(jù)中,采用套索算法選擇特征;第二模型訓練單元,用于根據(jù)抽取的用戶數(shù)據(jù)的選擇的特征訓練分類模型。
在一個實施例中,還包括用戶數(shù)據(jù)獲取模塊,用戶數(shù)據(jù)獲取模塊包括:用戶數(shù)據(jù)獲取單元,用于獲取第一時間單元中的具有若干特征的用戶數(shù)據(jù);用戶數(shù)據(jù)標記單元,用于根據(jù)第一時間單元中的用戶數(shù)據(jù)在第二時間單元是否流失的狀態(tài),標記第一時間單元中的用戶數(shù)據(jù);其中,第一時間單元為第二時間單元的相鄰在先時間單元。
本發(fā)明通過采用對用戶數(shù)據(jù)分類,再從各個類別中分別抽取部分數(shù)據(jù),以訓練用于預測用戶是否會流失的分類模型,可以使用于訓練分類模型的數(shù)據(jù)能夠充分體現(xiàn)原始用戶數(shù)據(jù)的特點,從而能夠更準確地預測用戶是否會流失。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電信股份有限公司,未經(jīng)中國電信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610818511.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調(diào)度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





