[發明專利]地址模糊匹配方法及裝置有效
| 申請號: | 202010541244.6 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111737315B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 徐琳玲;張瑩;厲林晨;高峰 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/29 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址 模糊 匹配 方法 裝置 | ||
1.一種地址模糊匹配方法,其特征在于,包括:
分別獲取標準數據塊中各個目標用戶各自對應的多個虛擬記錄對,其中,各個所述標準數據塊分別用于存儲前三層相同的標準地址表,各個所述虛擬記錄對分別用于存儲各自對應的用戶唯一標識與對應的虛擬地址,且所述虛擬地址預先基于位于對應的所述標準地址表的第四層或大于第四層的層級中的詳細地址信息獲取;
應用各個所述虛擬記錄對生成目標有向圖,且該目標有向圖中的各個邊的起始節點為所述用戶唯一標識,各個邊的目的節點為對應的所述虛擬地址;
在所述目標有向圖中進行兩次傳遞方向相反的消息傳遞,得到存在相似性的各個所述虛擬記錄對之間的地址相似度;
基于存在相似性的各個所述虛擬記錄對之間的地址相似度輸出各個所述目標用戶的地址模糊匹配結果;
所述在所述目標有向圖中進行兩次傳遞方向相反的消息傳遞,得到存在相似性的各個所述虛擬記錄對之間的地址相似度,包括:
自各個所述起始節點沿所述目標有向圖的邊向對應的各個所述目的節點進行第一次消息傳遞,以使各個所述目的節點同時收到與自身虛擬地址相同的各個用戶唯一標識;
自各個所述目的節點沿所述目標有向圖的邊向對應的各個所述起始節點進行與所述第一次消息傳遞逆向傳遞的第二次消息傳遞,以使各個所述起始節點同時收到與自身虛擬地址相同的各個用戶唯一標識,并生成各個所述目標用戶各自對應的相似記錄對,其中,該相似記錄對用于存儲對應的用戶唯一標識與用于所述標準地址表中各層是否相同的相似度信息。
2.根據權利要求1所述的地址模糊匹配方法,其特征在于,所述分別獲取標準數據塊中各個目標用戶各自對應的多個虛擬記錄對,包括:
分別獲取各個標準數據塊各自對應的多個記錄對,其中,各個所述記錄對分別用于存儲各自對應的用戶唯一標識與對應的詞向量,且該詞向量為位于所述標準地址表的第四層或大于第四層的層級中的詳細地址信息;
將所在層級相同的所述詞向量對應的所述記錄對合并至同一數據集合,并所述數據集合內的詞向量進行聚類,得到至少一個詞向量類;
獲取各個所述詞向量類的中心點向量,并將所述記錄對中的所述詞向量替換為對應的中心點向量,得到各個所述記錄對各自對應的虛擬記錄對。
3.根據權利要求2所述的地址模糊匹配方法,其特征在于,在所述分別獲取各個標準數據塊各自對應的多個記錄對之前,還包括:
根據當前處于可用狀態的并發線程的數量,將各個所述目標用戶的數據對劃分至對應數據的數據塊中,其中,所述數據對用于存儲各自對應的用戶唯一標識與對應的地址信息;
應用各個所述并發線程分別對各自對應的所述數據塊中的地址信息進行分詞處理;
將經該分詞處理得到得各個詞匯按預設規則進行分層處理,得到各個所述目標用戶各自對應的各層依次關聯的標準地址表;
將前三層相同的標準地址表劃分至同一標準數據塊中。
4.根據權利要求3所述的地址模糊匹配方法,其特征在于,在所述根據當前處于可用狀態的并發線程的數量,將各個所述目標用戶的數據對劃分至對應數據的數據塊中之前,還包括:
自預設的存儲設備中順序讀取各個所述目標用戶的用戶唯一標識以及地址數據;
對各個所述地址數據進行預處理,得到各個所述目標用戶各自對應的各個地址信息;
基于各個所述目標用戶的用戶唯一標識以及地址信息生成各個所述目標用戶的數據對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010541244.6/1.html,轉載請聲明來源鉆瓜專利網。





