[發明專利]一種客戶信息查重方法在審
| 申請號: | 201711356799.8 | 申請日: | 2017-12-16 |
| 公開(公告)號: | CN108090185A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 張毅;王章龍;張松 | 申請(專利權)人: | 河北慧日信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06F11/14 |
| 代理公司: | 石家莊德皓專利代理事務所(普通合伙) 13129 | 代理人: | 耿佳;楊瑞龍 |
| 地址: | 050000 河北省石家莊市新石北*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 企業數據 目標企業 數據包 企業數據庫 客戶信息 重結果 刪除 核查 數據包存儲 代碼存儲 規則選取 中心企業 重復 映射 返回 | ||
1.一種客戶信息查重方法,其特征在于,包括以下步驟:
S1:從待查重企業數據中選取一企業數據建立第i條目標企業數據包,并映射第i條目標企業數據包的代碼存儲至此目標企業數據包,
S2:第i條目標企業數據包存儲至已核查企業數據庫并將此企業數據從待查重企業數據中刪除,
S3:從待查重企業數據中選取一企業數據建立第i+1條目標企業數據包,并映射第i+1條目標企業數據包的代碼存儲至此目標企業數據包,
S4:將第i+1條目標企業數據包與已核查企業數據庫一企業從設定好的查重規則選取查重項目至少兩項進行查重操作,如果查重結果為重復,將此企業數據從待查重企業數據中刪除,返回步驟S3,如果查重結果為不重復,第i+1條目標企業數據包存儲至已核查企業數據庫并將此企業數據從待查重企業數據中刪除;
S5:重復步驟S3~S4,且i依次遞增,其中i為自然數;
其中,建立目標企業數據包具體包括以下步驟:
S31:將目標企業名稱同其對應的關聯手機號、企業地址、關聯電子郵箱、企業郵政編碼、關聯座機,一同組成一條目標企業數據包儲存于文檔中,
S32:規范目標企業名稱,規范目標企業名稱的輸入方式統一清洗為半角中文,同時將目標企業名稱中的阿拉伯數字統一為漢字數字;
S33:目標企業名稱分詞處理,從目標企業數據包中選取目標企業名稱進行分詞處理,得到目標企業字號、目標企業區域、目標企業經營范圍、目標企業組織形式,并將目標企業字號、目標企業區域、目標企業經營范圍、目標企業組織形式增加至目標企業數據包;
其中,S4中查重規則設定具體為,對比目標企業數據包與已核查企業數據庫中一企業的企業名稱規則a1,對比目標企業數據包與已核查企業數據庫中一企業的目標企業字號規則a2,對比目標企業數據包與已核查企業數據庫中一企業的目標企業區域規則a3,對比目標企業數據包與已核查企業數據庫中一企業的目標企業經營范圍規則a4,對比目標企業數據包與已核查企業數據庫中一企業的目標企業組織形式規則a5,對比目標企業數據包與已核查企業數據庫中一企業的關聯手機號規則a6,對比目標企業數據包與已核查企業數據庫中一企業的企業地址規則a7,對比目標企業數據包與已核查企業數據庫中一企業的關聯電子郵箱規則a8,對比目標企業數據包與已核查企業數據庫中一企業的企業郵政編碼規則a9,對比目標企業數據包與已核查企業數據庫中一企業的關聯座機規則a10。
2.根據權利要求1所述的一種客戶信息查重方法,其特征在于,S4中查重規則選取為a2且a3。
3.根據權利要求1所述的一種客戶信息查重方法,其特征在于,S4中查重規則選取為a2且a3且a4。
4.根據權利要求1所述的一種客戶信息查重方法,其特征在于,S4中查重結果為重復或者不重復由查重量M的數值決定,
M≥r,查重結果為重復,
M<r,查重結果為不重復,r為預設常數。
5.根據權利要求4所述的一種客戶信息查重方法,其特征在于,M=M1+M2+M3+M4+M5+M6+M7+M8,
M1為目標企業字號相似度分值,
M2為目標企業區域相似度分值
M3為目標企業經營范圍相似度分值,
M4為目標企業組織形式相似度分值,
M5為目標企業關聯手機號相似度分值,
M6為目標企業關聯電子郵箱相似度分值,
M7為目標企業郵政編碼相似度分值,
M8為目標企業關聯座機相似度分值。
6.根據權利要求5所述的一種客戶信息查重方法,其特征在于,
目標企業數據包的目標企業字號與已核查企業數據庫中一企業的企業字號相比對,若字符完全相同,M1=1,若有x1個字符不同M1=1-0.1*x1,若字符完全不同或不參與查重,M1=0,
目標企業數據包的區域與已核查企業數據庫中一企業的區域相比對,若字符完全相同,M2=1,若有x2個字符不同M2=1-0.2*x2,若字符完全不同或不參與查重M2=0,
目標企業數據包的經營范圍與已核查企業數據庫中一企業的經營范圍相比對,若字符完全相同,M3=1,若有x3個字符不同M3=1-0.2*x3,若字符完全不同或不參與查重M3=0,
目標企業數據包的組織形式與已核查企業數據庫中一企業的組織形式相比對,若字符完全相同,M4=1,若有x4個字符不同M4=1-0.2*x4,若字符完全不同或不參與查重M4=0,
目標企業數據包的關聯手機號與已核查企業數據庫中一企業的關聯手機號相比對,若字符完全相同,M5=1,若有x5個字符不同M5=1-0.08*x5,若字符完全不同或不參與查重M5=0,
目標企業數據包的關聯電子郵箱與已核查企業數據庫中一企業的關聯電子郵箱相比對,若字符完全相同,M6=1,若有x6個字符不同M6=1-0.05*x6,若字符完全不同或不參與查重M6=0,
目標企業數據包的郵政編碼與已核查企業數據庫中一企業的郵政編碼相比對,若字符完全相同,M7=1,若有x7個字符不同M7=1-0.16*x7,若字符完全不同或不參與查重M7=0,
目標企業數據包的關聯座機與已核查企業數據庫中一企業的關聯座機相比對,若字符完全相同,M8=1,若有x8個字符不同M8=1-0.08*x8,若字符完全不同或不參與查重M8=0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河北慧日信息技術有限公司,未經河北慧日信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711356799.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種流域污水數據庫系統
- 下一篇:一種大數據平臺上的電力數據去重方法





