[發明專利]一種基于聚類分析的客戶分群實現方法在審
| 申請號: | 201911421024.3 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111159258A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 吳炎泉;陳思恩;楊紫勝;廖雅哲 | 申請(專利權)人: | 科技谷(廈門)信息技術有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/28;G06Q30/02;G06K9/62 |
| 代理公司: | 廈門致群專利代理事務所(普通合伙) 35224 | 代理人: | 劉兆慶;鄧貴琴 |
| 地址: | 361006 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聚類分析 客戶 分群 實現 方法 | ||
1.一種基于聚類分析的客戶分群實現方法,其特征在于,包括以下步驟:
S1、建立標簽畫像系統,所述標簽畫像系統采用寬表形式存儲,其包含有一組客戶標簽,所述客戶標簽包括連續型標簽和類別型標簽;
S2、獲取待分群的客戶數據集;
S3、基于業務背景,在標簽畫像系統里的標簽列表中選擇客戶標簽,生成初始客戶標簽庫;
S4、配置聚類數目K,并選擇是否對初始客戶標簽庫的標簽進行降維;
S5、利用主成分分析法對待分析客戶標簽庫中的連續型標簽進行降維處理,對類別型標簽進行One-Hot編碼,生成最終客戶標簽庫;
S6、基于最終客戶標簽庫,建立聚類分析模型,利用k-means++算法進行聚類分析,生成聚類結果并進行展示,所述聚類結果包括聚類后的各群體數量以及各群體標簽的中心值。
2.如權利要求1所述的一種基于聚類分析的客戶分群實現方法,其特征在于,步驟S1中所述的建立標簽畫像系統具體為:創建HBase表,然后將HBase表映射到Hive表。
3.如權利要求1或2所述的一種基于聚類分析的客戶分群實現方法,其特征在于,步驟S5中所述的降維處理通過以下方法實現:
S51、對初始客戶標簽庫中的連續型標簽作為原始變量,進行進行標準化處理,令:
將p個原始變量X1,X2,…,Xp的總方差分解成p個相互獨立的變量Y1,Y2,…,Yp的方差之和;
S52、建立貢獻率計算模型如下:
其中,為變量Y1,Y2,…,Ym的的累計貢獻率,m為選取的主成分變量的數量,mp;
S53、基于預先設定的貢獻率閾值,利用所述貢獻率計算模型計算累計貢獻率達到貢獻率閾值時的m值;
S54、根據獲得的主成分變量的數量m值,得到:
其中,Yi為經降維處理后最終得到的連續型標簽。
4.如權利要求1或2所述的一種基于聚類分析的客戶分群實現方法,其特征在于,步驟S6中所述的利用k-means++算法進行聚類分析通過以下方法實現:
S61、選取k個聚類中心;
S62、針對客戶數據集中的每個數據點,計算其到k個中心點的距離,并將其與距離最近的中心點關聯,與同一中心點關聯的所有數據點聚類成一組;
S63、計算每一組數據點的均值,并將該組對應的中心點移動到均值的位置;
S64、重復步驟S62、S63,直至中心點不再變化。
5.如權利要求4所述的一種基于聚類分析的客戶分群實現方法,其特征在于,步驟S61中所述的選取k個聚類中心通過以下方法實現:
隨機選取第一個聚類中心;
假定已經選取了n個聚類中心,0nk,則在選取第n+1個聚類中心時,距離當前n個聚類中心越遠的點具有更高的選中概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科技谷(廈門)信息技術有限公司,未經科技谷(廈門)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911421024.3/1.html,轉載請聲明來源鉆瓜專利網。





