[發明專利]一種客戶信息查重方法在審
| 申請號: | 201711356799.8 | 申請日: | 2017-12-16 |
| 公開(公告)號: | CN108090185A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 張毅;王章龍;張松 | 申請(專利權)人: | 河北慧日信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06F11/14 |
| 代理公司: | 石家莊德皓專利代理事務所(普通合伙) 13129 | 代理人: | 耿佳;楊瑞龍 |
| 地址: | 050000 河北省石家莊市新石北*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 企業數據 目標企業 數據包 企業數據庫 客戶信息 重結果 刪除 核查 數據包存儲 代碼存儲 規則選取 中心企業 重復 映射 返回 | ||
本發明屬于信息查重技術領域,提出了一種客戶信息查重方法,包括以下步驟:從待查重企業數據中選取一企業數據建立第i+1條目標企業數據包,并映射第i+1條目標企業數據包的代碼存儲至此目標企業數據包,將第i+1條目標企業數據包與已核查企業數據庫一企業從設定好的查重規則選取查重項目至少兩項進行查重操作,如果查重結果為重復,將此企業數據從待查重企業數據中刪除,返回步驟S3,如果查重結果為不重復,第i+1條目標企業數據包存儲至已核查企業數據庫并將此企業數據從待查重企業數據中刪除;本發明解決了現有技術中心企業信息查重負責不方便的問題。
技術領域
本發明屬于信息查重技術領域,涉及一種客戶信息查重方法。
背景技術
在實際生產生活中,整理客戶的企業數據對企業做定向營銷時發現,樣本數據中存在大量重復的企業數據。為在營銷中降低營銷用戶企業反感,通過降低營銷數據重復率,從而更精確的定位營銷范圍的投放,提高企業中文數據的精確性。在成千上萬的數據中,若使用人力查找重復數據是一件非常困難的事情。現有方案一般有以下幾種:
1、使用EXCEL的普通篩選查找實現的查重功能,去除完全相同的企業名稱重復數據。
2、使用SQL等數據庫工具,去除完全相同的企業名稱重復數據。
3、使用查重工具,去除完全相同的企業名稱重復數據
4、使用現有的分詞工具,拆分后,使用以上三種方法的字段組合方式去除企業名稱的重復數據。
這些方案具有以下缺點:
1、需要操作人員掌握EXCEL、SQL、查重、分詞等工具,對基礎操作人員的技能要求高。
2、要求操作人員懂得一定的查重方法,組合各個方法做查重。
3、中間流程多,操作復雜。
4、查重結果的重復率高,完全重復的數據可以去除,近似重復的不能查到。
5、耗費資源多,若數據量大需要多人協作、重復確認,容易出錯。
發明內容
本發明提出一種客戶信息查重方法,解決了現有技術中的上述問題。
本發明的技術方案是這樣實現的:
一種客戶信息查重方法,包括以下步驟:
S1:從待查重企業數據中選取一企業數據建立第i條目標企業數據包,并映射第i條目標企業數據包的代碼存儲至此目標企業數據包,
S2:第i條目標企業數據包存儲至已核查企業數據庫并將此企業數據從待查重企業數據中刪除,
S3:從待查重企業數據中選取一企業數據建立第i+1條目標企業數據包,并映射第i+1條目標企業數據包的代碼存儲至此目標企業數據包,
S4:將第i+1條目標企業數據包與已核查企業數據庫一企業從設定好的查重規則選取查重項目至少兩項進行查重操作,如果查重結果為重復,將此企業數據從待查重企業數據中刪除,返回步驟S3,如果查重結果為不重復,第i+1條目標企業數據包存儲至已核查企業數據庫并將此企業數據從待查重企業數據中刪除;
S5:重復步驟S3~S4,且i依次遞增,其中i為自然數;
其中,建立目標企業數據包具體包括以下步驟:
S31:將目標企業名稱同其對應的關聯手機號、企業地址、關聯電子郵箱、企業郵政編碼、關聯座機,一同組成一條目標企業數據包儲存于文檔中,
S32:規范目標企業名稱,規范目標企業名稱的輸入方式統一清洗為半角中文,同時將目標企業名稱中的阿拉伯數字統一為漢字數字;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北慧日信息技術有限公司,未經河北慧日信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711356799.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種流域污水數據庫系統
- 下一篇:一種大數據平臺上的電力數據去重方法





