[發明專利]一種計算樣本數據之間的距離的方法及設備在審
| 申請號: | 201810247666.5 | 申請日: | 2018-03-23 |
| 公開(公告)號: | CN110298679A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 劉洋;蔣豐澤;趙曉東 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06K9/62 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 馮艷蓮 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 度量 客戶 矩陣 矩陣計算 客戶挖掘 設備需要 相似度 申請 | ||
本申請公開了一種計算樣本數據之間的距離的方法及設備,可以使計算出的不同樣本數據之間的距離能夠準確地體現樣本數據之間的相似性。在該方案中,客戶挖掘設備需要根據與種子客戶樣本數據相似性最低的P個候選客戶的樣本數據,以及種子客戶的樣本數據計算度量矩陣,且該度量矩陣滿足:通過度量矩陣計算實際上相似的樣本數據(種子客戶的樣本數據)之間的距離較小,實際上不相似的樣本數據(P個候選客戶的樣本數據)之間的距離較大,顯然,基于該度量矩陣計算得到的兩個樣本數據之間的距離可以更能體現這兩個樣本數據之間的相似度。
技術領域
本申請涉及計算機技術領域,尤其涉及一種計算樣本數據之間的距離的方法及設備。
背景技術
實現精準營銷是各類產品推銷商推廣其產品的目標。目前,產品推銷商可以依托現代信息技術手段建立客戶挖掘系統,利用客戶挖掘系統對多個候選客戶的樣本數據進行分析,從而在所述多個候選客戶中挖掘出潛在客戶,實現精準營銷。
目前的客戶挖掘系統一般是相似性(lookalike)算法實現的。僅需用戶提供多個候選客戶的樣本數據,以及種子客戶的樣本數據,所述客戶挖掘系統即可在所述多個候選客戶中選擇出潛在客戶。其中,種子客戶為一定會使用待推銷產品的客戶。
傳統的lookalike算法中需要采用K最近鄰(K nearest neighbor,KNN)算法計算與某個樣本數據最相似的K個樣本數據,且目前常用歐氏距離計算不同樣本數據之間的相似性。然而,在實際場景中,樣本數據均具有多個維度的特征,且不同維度的特征的數據稀疏性可能較強。例如,某通信運行商開展流量包營銷活動,那么每個樣本數據如表1所示:
表1
候選客戶 是否開通4G服務 是否為VIP客戶 (歸一化的)月平均流量 客戶1 1 0 0.2 客戶2 1 1 0.8 客戶3 0 1 0.3
其中,“是否開通4G服務”、“是否為VIP”兩個特征是布爾型,取值為1或0;“月平均流量”為數值型(歸一化后的取值范圍為[0,1])。
客戶1的樣本數據和客戶2的樣本數據之間的歐氏距離為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810247666.5/2.html,轉載請聲明來源鉆瓜專利網。





