[發明專利]基于商圈劃分的企業線下與線上多源數據整合方法及裝置有效

申請號：	202110287069.7	申請日：	2021-03-17
公開（公告）號：	CN112783963B	公開（公告）日：	2023-04-28
發明（設計）人：	譚繼軍;李陽;謝蓬蓮	申請（專利權）人：	上海數喆數據科技有限公司
主分類號：	G06F16/25	分類號：	G06F16/25;G06F16/958;G06F40/284;G06Q30/00
代理公司：	成都嘉企源知識產權代理有限公司 51246	代理人：	何朝友
地址：	200000 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于商圈劃分企業線上數據整合方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于商圈劃分的企業線下與線上多源數據整合方法，包括下述幾個階段：第一階段：對線上的百萬級樣本數據進行商圈匹配，主要完成將大量的抓取樣本放入特定商圈的工作，以便降低下一步匹配樣本所在商場的計算量，提高匹配效率和精度；第二階段：對各個1級商圈進行操作，將每個樣本在某些商圈的可能性做出預測，并對可能的1.5級商圈進行排序匹配；第三階段：分別就地址、商戶名和門牌號綜合計算相似性得分匹配。本發明將線上的企業數據與線下的經營實體對應，拓寬了企業信息的維度，通過程序化的方法，減輕了人工匹配的工作量；另外，本發明還提供一種基于商圈劃分的企業線下與線上多源數據整合裝置，便于實現多源數據的整合。

技術領域

本發明涉及商圈數據整合技術領域，具體涉及一種基于商圈劃分的企業線下與線上多源數據整合方法；另外，本發明還涉及基于商圈劃分的企業線下與線上多源數據整合裝置。

背景技術

小微企業存在注冊名稱和實際經營的招牌名稱不一致、注冊地址和實際經營地址的不一致等情況，導致一個企業尤其是小微企業的線下數據和工商注冊數據難以匹配，在僅了解企業線下信息的基礎上，很難獲取企業更多的線上數據。企業線下數據與線上數據難以匹配的原因主要有以下幾點：

1.數據的異構性和不同源性，企業線上數據和線下數據的生產者不同，數據結構差異較大；同時，同類數據的質量也存在較大差異，傳統的字符匹配算法難以發揮作用。

2.數據量大和多層次性，基于商圈劃分的企業數據具有多層次性，為匹配帶來較大難度。

發明內容

本發明的目的在于提供基于商圈劃分的企業線下與線上多源數據整合方法，本發明將線上的企業數據與線下的經營實體對應，拓寬了企業信息的維度，通過程序化的方法，減輕了人工匹配的工作量，提高了工作效率；

另外，本發明還提供一種基于商圈劃分的企業線下與線上多源數據整合裝置，便于實現多源數據的整合。

為解決上述技術問題，本發明所采用的技術方案是：

一種基于商圈劃分的企業線下與線上多源數據整合方法，其特征在于，包括下述幾個階段：

第一階段：對線上的百萬級樣本數據進行商圈匹配，主要完成將大量的抓取樣本放入特定商圈的工作，以便降低下一步匹配樣本所在商場的計算量，提高匹配效率和精度；