[發明專利]一種計算樣本數據之間的距離的方法及設備在審

申請號：	201810247666.5	申請日：	2018-03-23
公開（公告）號：	CN110298679A	公開（公告）日：	2019-10-01
發明（設計）人：	劉洋;蔣豐澤;趙曉東	申請（專利權）人：	華為技術有限公司
主分類號：	G06Q30/02	分類號：	G06Q30/02;G06K9/62
代理公司：	北京同達信恒知識產權代理有限公司 11291	代理人：	馮艷蓮
地址：	518129 廣東***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	樣本數據度量客戶矩陣矩陣計算客戶挖掘設備需要相似度申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種計算樣本數據之間的距離的方法及設備，可以使計算出的不同樣本數據之間的距離能夠準確地體現樣本數據之間的相似性。在該方案中，客戶挖掘設備需要根據與種子客戶樣本數據相似性最低的P個候選客戶的樣本數據，以及種子客戶的樣本數據計算度量矩陣，且該度量矩陣滿足：通過度量矩陣計算實際上相似的樣本數據(種子客戶的樣本數據)之間的距離較小，實際上不相似的樣本數據(P個候選客戶的樣本數據)之間的距離較大，顯然，基于該度量矩陣計算得到的兩個樣本數據之間的距離可以更能體現這兩個樣本數據之間的相似度。

技術領域

本申請涉及計算機技術領域，尤其涉及一種計算樣本數據之間的距離的方法及設備。

背景技術

實現精準營銷是各類產品推銷商推廣其產品的目標。目前，產品推銷商可以依托現代信息技術手段建立客戶挖掘系統，利用客戶挖掘系統對多個候選客戶的樣本數據進行分析，從而在所述多個候選客戶中挖掘出潛在客戶，實現精準營銷。

目前的客戶挖掘系統一般是相似性(lookalike)算法實現的。僅需用戶提供多個候選客戶的樣本數據，以及種子客戶的樣本數據，所述客戶挖掘系統即可在所述多個候選客戶中選擇出潛在客戶。其中，種子客戶為一定會使用待推銷產品的客戶。

傳統的lookalike算法中需要采用K最近鄰(K nearest neighbor，KNN)算法計算與某個樣本數據最相似的K個樣本數據，且目前常用歐氏距離計算不同樣本數據之間的相似性。然而，在實際場景中，樣本數據均具有多個維度的特征，且不同維度的特征的數據稀疏性可能較強。例如，某通信運行商開展流量包營銷活動，那么每個樣本數據如表1所示：

表1