[發明專利]融合多維相似度與規則集合的地址模糊匹配方法及系統在審
| 申請號: | 202011395883.2 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112581252A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 劉志斌;施明強;方俊煒;劉日佳 | 申請(專利權)人: | 信用生活(廣州)智能科技有限公司 |
| 主分類號: | G06Q40/02 | 分類號: | G06Q40/02;G06F16/2458;G06F16/29;G06K9/62 |
| 代理公司: | 廣東高端專利代理事務所(特殊普通合伙) 44346 | 代理人: | 劉廣新 |
| 地址: | 510000 廣東省廣州市海珠區宸悅*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 多維 相似 規則 集合 地址 模糊 匹配 方法 系統 | ||
1.一種融合多維相似度與規則集合的地址模糊匹配方法,其特征在于,所述方法包括:
基于標準地址庫對標準地址進行預處理,得到待匹配信息;其中,所述待匹配信息包括所述標準地址、對應于所述標準的地址詳細信息及待匹配地址;
提取所述待匹配信息的地址特征;
基于所述待匹配信息及所述地址特征,采用相似度計算模型計算所述標準地址與所述待匹配地址的第一相似度;
基于所述待匹配信息及所述地址特征,采用比對規則集合計算所述標準地址與所述待匹配地址的第二相似度;
采用所述第二相似度調整所述第一相似度,得到所述標準地址相對所述待匹配地址的總體相似度。
2.根據權利要求1所述的方法,其特征在于,所述基于標準地址庫對標準地址進行預處理,得到待匹配信息,包括:
提取所述標準地址中存在的地址層級字符及對應于所述地址層級字符的地址名稱字符,作為所述標準地址對應的地址詳細信息;
基于所述地址詳細信息中包括的地址層級字符與對應的地址名稱字符,采用倒排索引在所述標準地址庫中檢索與所述標準地址近似度最高的待匹配地址;
整合所述標準地址、所述地址詳細信息及所述待匹配地址,作為所述待匹配信息。
3.根據權利要求2所述的方法,其特征在于,所述提取所述待匹配信息的地址特征,包括:
檢測所述標準地址及所述待匹配地址的字符長度;
統計所述待匹配信息中若干地址名稱字符的詞頻;
計算所述標準地址與所述待匹配地址的萊文斯坦距離;
整合所述字符長度、所述若干地址名稱字符的詞頻及所述萊文斯坦距離,作為所述待匹配信息的地址特征。
4.根據權利要求1所述的方法,其特征在于,在所述基于標準地址庫對標準地址進行預處理,得到待匹配信息之前,所述方法還包括:
獲取用戶提交的原始地址;
依據預設地址命名規則處理所述原始地址,得到規范地址;
提取所述規范地址的行政區劃信息,基于標準地址庫對所述規范地址的行政區劃信息進行鑒別,篩除所述規范地址中存在的虛假地址及模糊地址,得到所述標準地址。
5.根據權利要求1~4任一項所述的方法,其特征在于,所述方法還包括:
將所述標準地址及所述標準地址對應的地址詳細信息與地址特征錄入所述標準地址庫,更新所述標準地址庫;
根據更新完成的所述標準地址庫對所述相似度計算模型進行增量訓練;
獲取所述相似度計算模型中若干地址層級字符對應的權重值更新所述比對規則集合。
6.一種融合多維相似度與規則集合的地址模糊匹配系統,其特征在于,所述系統包括:
預處理單元,用于基于標準地址庫對標準地址進行預處理,得到待匹配信息;其中,所述待匹配信息包括所述標準地址、對應于所述標準的地址詳細信息及待匹配地址;
特征提取單元,用于提取所述待匹配信息的地址特征;
第一匹配單元,用于基于所述待匹配信息及所述地址特征,采用相似度計算模型計算所述標準地址與所述待匹配地址的第一相似度;
第二匹配單元,用于基于所述待匹配信息及所述地址特征,采用比對規則集合計算所述標準地址與所述待匹配地址的第二相似度;
匹配調整單元,用于采用所述第二相似度調整所述第一相似度,得到所述標準地址相對所述待匹配地址的總體相似度。
7.根據權利要求6所述的系統,其特征在于,所述預處理單元包括:
信息提取子單元,用于提取所述標準地址中存在的地址層級字符及對應于所述地址層級字符的地址名稱字符,作為所述標準地址對應的地址詳細信息;
地址檢索子單元,用于基于所述地址詳細信息中包括的地址層級字符與對應的地址名稱字符,采用倒排索引在所述標準地址庫中檢索與所述標準地址近似度最高的待匹配地址;
整合子單元,用于整合所述標準地址、所述地址詳細信息及所述待匹配地址,作為所述待匹配信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于信用生活(廣州)智能科技有限公司,未經信用生活(廣州)智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011395883.2/1.html,轉載請聲明來源鉆瓜專利網。





