[發(fā)明專利]客戶數(shù)據(jù)分類方法、裝置及電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202010086453.6 | 申請(qǐng)日: | 2020-02-11 |
| 公開(公告)號(hào): | CN111339294B | 公開(公告)日: | 2023-07-25 |
| 發(fā)明(設(shè)計(jì))人: | 井玉欣;陳永林;陳甜甜 | 申請(qǐng)(專利權(quán))人: | 普信恒業(yè)科技發(fā)展(北京)有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F18/23213 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 薛嬌 |
| 地址: | 100026 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 客戶 數(shù)據(jù) 分類 方法 裝置 電子設(shè)備 | ||
1.一種客戶數(shù)據(jù)分類方法,其特征在于,包括:
獲取包含多條客戶記錄的客戶數(shù)據(jù);其中所述客戶數(shù)據(jù)包括多列屬性;
分別確定每列屬性的屬性類型;其中屬性類型為分類型或數(shù)值型;
所述分別確定每列屬性的屬性類型,包括:
判斷一列屬性對(duì)應(yīng)屬性值的數(shù)值類型是否為連續(xù)數(shù)據(jù)類型;
若非連續(xù)數(shù)據(jù)類型則確定該列屬性為分類型數(shù)據(jù)屬性;
若是連續(xù)數(shù)據(jù)類型,則統(tǒng)計(jì)該列屬性中不同屬性值的個(gè)數(shù),并計(jì)算不同屬性值的個(gè)數(shù)與屬性值總數(shù)的比值;
判斷所述比值是否大于設(shè)定閾值;
若所述比值大于設(shè)定閾值,則確定該列屬性為數(shù)值型數(shù)據(jù)屬性;
若所述比值不大于設(shè)定閾值,則確定該列屬性為分類型數(shù)據(jù)屬性;
將所述客戶數(shù)據(jù)中分類型數(shù)據(jù)屬性對(duì)應(yīng)的屬性值、轉(zhuǎn)換為數(shù)值型數(shù)據(jù)屬性對(duì)應(yīng)的屬性值;
對(duì)所述客戶數(shù)據(jù)執(zhí)行聚類操作,獲得用于表示客戶細(xì)分的聚類結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述將所述客戶數(shù)據(jù)中分類型數(shù)據(jù)屬性對(duì)應(yīng)的屬性值、轉(zhuǎn)換為數(shù)值型數(shù)據(jù)屬性對(duì)應(yīng)的屬性值,包括:
針對(duì)所述客戶數(shù)據(jù)中每列分類型數(shù)據(jù)屬性執(zhí)行下述操作:
按該列分類型數(shù)據(jù)屬性的不同屬性值對(duì)客戶數(shù)據(jù)進(jìn)行分組,獲得與多個(gè)屬性值一一對(duì)應(yīng)的多個(gè)分組;
從所述客戶數(shù)據(jù)的各個(gè)數(shù)值型數(shù)據(jù)屬性中,確定與該分類型數(shù)據(jù)屬性最匹配的目標(biāo)數(shù)值型數(shù)據(jù)屬性;
針對(duì)每個(gè)分組:計(jì)算分組中目標(biāo)數(shù)值型數(shù)據(jù)屬性的平均屬性值,將該平均屬性值確定為該分組對(duì)應(yīng)屬性值轉(zhuǎn)換為數(shù)值型數(shù)據(jù)屬性的屬性值。
3.如權(quán)利要求2所述的方法,其特征在于,所述從所述客戶數(shù)據(jù)的各個(gè)數(shù)值型數(shù)據(jù)屬性中,確定與該分類型數(shù)據(jù)屬性最匹配的目標(biāo)數(shù)值型數(shù)據(jù)屬性包括:
針對(duì)所述客戶數(shù)據(jù)的各個(gè)數(shù)值型數(shù)據(jù)屬性,計(jì)算各個(gè)分組的組內(nèi)方差,并對(duì)各個(gè)組內(nèi)方差求和,獲得各個(gè)數(shù)值型數(shù)據(jù)屬性對(duì)應(yīng)的方差和;
對(duì)各個(gè)數(shù)值型數(shù)據(jù)屬性對(duì)應(yīng)的方差和執(zhí)行排序操作;
將方差和最小的數(shù)值型數(shù)據(jù)屬性,確定為與該分類型數(shù)據(jù)屬性最匹配的目標(biāo)數(shù)值型數(shù)據(jù)屬性。
4.如權(quán)利要求1所述的方法,其特征在于,在對(duì)所述客戶數(shù)據(jù)執(zhí)行聚類操作之前還包括采用孤立森林算法去除所述客戶數(shù)據(jù)中離群點(diǎn)。
5.如權(quán)利要求4所述的方法,其特征在于,所述對(duì)所述客戶數(shù)據(jù)執(zhí)行聚類操作,獲得用于表示客戶細(xì)分的聚類結(jié)果包括:
采用層次分類算法對(duì)所述客戶數(shù)據(jù)執(zhí)行預(yù)聚類,當(dāng)輸出微型類簇個(gè)數(shù)達(dá)到預(yù)設(shè)數(shù)量時(shí)停止預(yù)聚類;
計(jì)算預(yù)設(shè)數(shù)量個(gè)微型類簇的中心點(diǎn);
從預(yù)設(shè)數(shù)量個(gè)中心點(diǎn)中確定K個(gè)中心點(diǎn)作為K-means算法的初始中心點(diǎn);
基于K個(gè)初始中心點(diǎn)進(jìn)行第二次聚類操作,獲得用于表示客戶細(xì)分的聚類結(jié)果。
6.如權(quán)利要求5所述的方法,其特征在于,所述從預(yù)設(shè)數(shù)量個(gè)中心點(diǎn)中確定K個(gè)中心點(diǎn)作為K-means算法的初始中心點(diǎn)包括:
從預(yù)設(shè)數(shù)量個(gè)中心點(diǎn)中隨機(jī)選擇一個(gè)點(diǎn)作為第一個(gè)初始中心點(diǎn),加入集合S;
計(jì)算預(yù)設(shè)數(shù)量個(gè)中心點(diǎn)中剩余中心點(diǎn)與集合S的最近距離,并選擇最近距離最大的一個(gè)剩余中心點(diǎn)加入集合S;
重復(fù)上述步驟直到集合S達(dá)到K個(gè)中心點(diǎn)。
7.如權(quán)利要求1所述的方法,其特征在于,
在所述獲取包含多條客戶記錄的客戶數(shù)據(jù)之后,還包括:
對(duì)所述客戶數(shù)據(jù)集執(zhí)行數(shù)據(jù)清洗操作,所述數(shù)據(jù)清洗操作包括缺失值填充操作、異常數(shù)值處理操作和重復(fù)數(shù)據(jù)剔除操作;
在所述分別確定每列屬性的屬性類型之后,還包括:
對(duì)多個(gè)分類型數(shù)據(jù)屬性執(zhí)行去相關(guān)性操作,刪除相關(guān)性高的分類型數(shù)據(jù)屬性;
對(duì)多個(gè)數(shù)值型數(shù)據(jù)屬性執(zhí)行去相關(guān)性操作,刪除相關(guān)性高的數(shù)值型數(shù)據(jù)屬性,并對(duì)剩余的數(shù)值型數(shù)據(jù)屬性對(duì)應(yīng)的屬性值執(zhí)行標(biāo)準(zhǔn)化處理操作。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于普信恒業(yè)科技發(fā)展(北京)有限公司,未經(jīng)普信恒業(yè)科技發(fā)展(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010086453.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





