[發明專利]用戶畫像方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010345625.7 | 申請日: | 2020-04-27 |
| 公開(公告)號: | CN111597348A | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 孔清揚;吳滿芳 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/27;G06F16/35;G06K9/62;G06N3/02 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 王寧 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用戶 畫像 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種基于大數據的用戶畫像方法、裝置、計算機設備和存儲介質。所述方法包括:獲取待分析的用戶數據,包括數值變量和非數值變量,對各非數值變量進行實體嵌入編碼,將各非數值變量從語義空間映射至向量空間,從向量空間中確定與非數值變量對應的連續向量,對連續向量進行訓練生成對應的代表向量。獲取基于業務場景預設的聚類范圍,根據訓練后的K?means模型,對聚類范圍內的數值變量和代表向量進行窮舉聚類,生成多個用戶聚類結果。計算各用戶聚類結果的輪廓系數,確定最大輪廓系數的聚類結果為目標聚類結果,根據目標聚類結果,得到對應的用戶畫像結果。此外,本發明還涉及區塊鏈技術,用戶聚類結果可存儲于區塊鏈節點中。
技術領域
本申請涉及計算機技術領域,特別是涉及一種用戶畫像方法、裝置、計算機設備和存儲介質。
背景技術
隨著計算機技術的發展,以及智能終端設備在人們工作生活中的廣泛應用,越來越多用戶在金融企業的消費行為發生了變化。金融企業大多根據掌握的用戶屬性和用戶消費行為等數據對于用戶進行用戶畫像,來為提供更為滿足用戶需求的金融服務和更貼切的金融產品。其中,用戶畫像主要包括用戶消費行為信息和用戶人口屬性信息如出生地,年齡等,利用聚類算法可將用戶不同維度的信息進行組合,把行為、屬性相似的用戶聚在一起。
傳統的用戶畫像方式通常為利用K-Means算法,以樣本間距離為衡量標準,將所有樣本劃分到K個群體,使得群體和群體之間的距離最大化,同時群體內部的樣本之間的距離最小化。由于K-Means算法對數據類型要求較高,類別變量比如受教育水平和所在城市等,由于無法在維度空間內刻畫類別之間的距離,均不適用于K-Means算法,因此很多用戶畫像僅根據用戶連續變量相關信息進行聚類,聚類完成之后再做統計每個簇在分類變量上的分布信息,或者將類別變量進行獨熱編碼處理,再進行分類。
然而經獨熱編碼后的特征會變成強特征,對K-Means算法的聚類結果有很大的影響,由于K-Means算法對所有聚類指標的權重均相同,會出現分類結果不符合實際業務需求的情況,導致得到的用戶畫像精確度較低。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠提高用戶畫像精確度的用戶畫像方法、裝置、計算機設備和存儲介質。
一種用戶畫像方法,所述方法包括:
獲取待分析的用戶數據;所述用戶數據包括數值變量和非數值變量;
利用實體嵌入的方式編碼各所述非數值變量,將各所述非數值變量從語義空間映射至對應的向量空間;
從所述向量空間中確定與所述非數值變量對應的連續向量;
對所述連續向量進行訓練,生成與各所述數值變量對應的代表向量;獲取基于業務場景預設的聚類范圍;
根據訓練后的K-means模型,對所述聚類范圍內的所述數值變量和所述代表向量進行窮舉聚類,生成多個用戶聚類結果;
計算各所述用戶聚類結果的輪廓系數,并確定最大輪廓系數的聚類結果為目標聚類結果;
根據所述目標聚類結果,得到對應的用戶畫像結果。
在其中一個實施例中,所述方法還包括:
獲取各所述非數值變量的出現頻次,并根據所述出現頻次從所述向量空間中確定各所述非數值變量對應的識別標識向量;
將各所述非數值變量對應的識別標識向量確定為原始K-means模型的實際標簽;
根據各所述實際標簽對所述原始K-means模型進行訓練,得到對應的訓練后的K-means模型。
在其中一個實施例中,所述從所述向量空間中確定與所述非數值變量對應的連續向量,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010345625.7/2.html,轉載請聲明來源鉆瓜專利網。





