[發明專利]基于商圈劃分的企業線下與線上多源數據整合方法及裝置有效
| 申請號: | 202110287069.7 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN112783963B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 譚繼軍;李陽;謝蓬蓮 | 申請(專利權)人: | 上海數喆數據科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/958;G06F40/284;G06Q30/00 |
| 代理公司: | 成都嘉企源知識產權代理有限公司 51246 | 代理人: | 何朝友 |
| 地址: | 200000 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 商圈 劃分 企業 線上 數據 整合 方法 裝置 | ||
本發明公開了一種基于商圈劃分的企業線下與線上多源數據整合方法,包括下述幾個階段:第一階段:對線上的百萬級樣本數據進行商圈匹配,主要完成將大量的抓取樣本放入特定商圈的工作,以便降低下一步匹配樣本所在商場的計算量,提高匹配效率和精度;第二階段:對各個1級商圈進行操作,將每個樣本在某些商圈的可能性做出預測,并對可能的1.5級商圈進行排序匹配;第三階段:分別就地址、商戶名和門牌號綜合計算相似性得分匹配。本發明將線上的企業數據與線下的經營實體對應,拓寬了企業信息的維度,通過程序化的方法,減輕了人工匹配的工作量;另外,本發明還提供一種基于商圈劃分的企業線下與線上多源數據整合裝置,便于實現多源數據的整合。
技術領域
本發明涉及商圈數據整合技術領域,具體涉及一種基于商圈劃分的企業線下與線上多源數據整合方法;另外,本發明還涉及基于商圈劃分的企業線下與線上多源數據整合裝置。
背景技術
小微企業存在注冊名稱和實際經營的招牌名稱不一致、注冊地址和實際經營地址的不一致等情況,導致一個企業尤其是小微企業的線下數據和工商注冊數據難以匹配,在僅了解企業線下信息的基礎上,很難獲取企業更多的線上數據。企業線下數據與線上數據難以匹配的原因主要有以下幾點:
1.數據的異構性和不同源性,企業線上數據和線下數據的生產者不同,數據結構差異較大;同時,同類數據的質量也存在較大差異,傳統的字符匹配算法難以發揮作用。
2.數據量大和多層次性,基于商圈劃分的企業數據具有多層次性,為匹配帶來較大難度。
發明內容
本發明的目的在于提供基于商圈劃分的企業線下與線上多源數據整合方法,本發明將線上的企業數據與線下的經營實體對應,拓寬了企業信息的維度,通過程序化的方法,減輕了人工匹配的工作量,提高了工作效率;
另外,本發明還提供一種基于商圈劃分的企業線下與線上多源數據整合裝置,便于實現多源數據的整合。
為解決上述技術問題,本發明所采用的技術方案是:
一種基于商圈劃分的企業線下與線上多源數據整合方法,其特征在于,包括下述幾個階段:
第一階段:對線上的百萬級樣本數據進行商圈匹配,主要完成將大量的抓取樣本放入特定商圈的工作,以便降低下一步匹配樣本所在商場的計算量,提高匹配效率和精度;
第二階段:對各個1級商圈進行操作,將每個樣本在某些商圈的可能性做出預測,并對可能的1.5級商圈進行排序匹配;
第三階段:分別就地址、商戶名和門牌號綜合計算相似性得分匹配;
其中,第一階段的具體過程如下:
采用地址分詞的方法,先根據特定的幾個商圈的地址信息特征創建詞典,根據詞典將地址信息進行切詞處理,從而將地址字符串轉換為分詞向量;在此,我使用Jaccard算法,計算繪圖樣本的詞向量和抓取樣本的詞向量的相似系數;
Jaccard系數,度量方式如下:
通過閾值的設定,將分詞結果的相似系數大于0.4(經過人工多次校驗,Jaccard相似系數0.4,匹配的精度會有一個斷崖式地下跌。因此選擇0.4作為進入下一輪匹配的閾值)的樣本納入下一輪匹配工作的樣本池。
進一步優化,第二階段的具體過程如下,
在第二階段的匹配中,首先需要創建以2級商圈為基礎的目標變量y,定義其為1.5級商圈,由此,將第二階段的匹配問題轉化為一個典型的有監督分類問題;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數喆數據科技有限公司,未經上海數喆數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110287069.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶儲存倉的按壓式瓶蓋
- 下一篇:一種雙段水過濾濾芯





