[發明專利]一種地址解析、匹配的方法及裝置在審
| 申請號: | 201810876680.1 | 申請日: | 2018-08-03 |
| 公開(公告)號: | CN109033086A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 盧翠蘭;章磊;李翔宇 | 申請(專利權)人: | 銀聯數據服務有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 黃志華 |
| 地址: | 201201 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址解析 匹配地址 行政區 匹配 解析 地址庫 字段 地址匹配技術 相似度匹配 地址要素 組合規則 規范化 詞典庫 分層 | ||
1.一種地址解析的方法,其特征在于,所述方法包括:
獲取待匹配地址;
根據行政區分層詞典庫,將所述待匹配地址切分為第一地址和第二地址;其中,所述第一地址為具有行政區信息的字段;所述第二地址為不具有行政區信息的字段;
對所述第一地址進行規范化處理;
根據地址要素關鍵詞與組合規則,解析所述第二地址中的各地址要素,并根據地址庫對各地址要素進行規范化處理;所述地址庫與所述行政區分層詞典庫不同。
2.根據權利要求1所述的方法,其特征在于,所述根據行政區分層詞典庫,將所述待匹配地址切分為第一地址和第二地址,包括:
按照行政區的層級級數依次解析所述待匹配地址,確定解析成功的字段的行政區的級數,直至所述行政區的層級級數的最后一級;
將所述行政區的層級級數的第一級對應的字段至所述最后一級對應的字段之間的字段作為所述第一地址;所述待匹配地址中除所述第一地址之外的字段作為第二地址。
3.根據權利要求2所述的方法,其特征在于,所述對所述第一地址進行規范化處理,包括:
若確定所述第一地址中,存在與解析成功的層級地址的字段含義相同的重復字段,則刪除所述重復字段;
若確定所述第一地址中存在缺失的行政區的層級級數,則根據解析成功的行政區與所述行政區分層詞典庫對所述第一地址進行行政區信息補全;
若確定所述第一地址中解析的行政區為已撤銷行政區,則根據所述行政區分層詞典庫將所述已撤銷行政區對應的字段更新為當前行政區對應的字段。
4.根據權利要求1所述的方法,其特征在于,根據地址要素關鍵詞與組合規則,解析所述第二地址中的各地址要素,包括:
按照預設的地址要素的組合規則,依次對所述第二地址進行基于非貪婪規則的正向匹配;
若確定有解析成功的字段,則對解析成功的字段進行地址要素的標記;
將未完成解析的各字段,按照預設的地址要素的組合規則,依次進行基于非貪婪規則的正向匹配;
若仍存在未解析成功的各字段,則對所述未完成解析的各字段進行基于貪婪規則的逆向匹配,將確定的樓室號之前的字段標記為小區名地址要素。
5.根據權利要求1所述的方法,其特征在于,根據所述地址庫對所述各地址要素進行規范化處理,包括:
根據所述地址庫,查找到所述地址庫中存儲的第二地址的地址信息;
根據所述待匹配地址中的第二地址,確定所述待匹配地址中的第二地址中缺失的地址要素;
根據所述地址庫中存儲的第二地址對所述待匹配地址中的第二地址中缺失的地址要素進行補全。
6.一種地址匹配方法,其特征在于,適用于通過權利要求1至5任一項方法解析出的待匹配地址,所述方法包括:
根據待匹配地址中的第一地址,將黑名單地址庫中的第一地址與所述待匹配地址中的第一地址相同的黑名單地址作為篩選后的黑名單地址;
將篩選后的黑名單地址中的第二地址與所述待匹配地址中的第二地址進行相似度匹配。
7.一種地址解析的裝置,其特征在于,所述裝置包括:
獲取單元,用于獲取待匹配地址;
處理單元,用于根據行政區分層詞典庫,將所述待匹配地址解析為第一地址和第二地址;其中,所述第一地址為具有行政區信息的字段;所述第二地址為不具有行政區信息的字段;對所述第一地址進行規范化處理;根據地址要素關鍵詞與組合規則,解析所述第二地址中的各地址要素,并根據地址庫對各地址要素進行規范化處理;所述地址庫與所述行政區分層詞典庫不同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于銀聯數據服務有限公司,未經銀聯數據服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810876680.1/1.html,轉載請聲明來源鉆瓜專利網。





