[發明專利]基于狀態位的中文地址去重方法、系統及設備在審
| 申請號: | 202110037776.0 | 申請日: | 2021-01-12 |
| 公開(公告)號: | CN112732984A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 虞開穩 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/906;G06F16/901 |
| 代理公司: | 青島清泰聯信知識產權代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 狀態 中文 地址 方法 系統 設備 | ||
1.一種基于狀態位的中文地址去重方法,其特征在于,包括如下步驟:
數據獲取步驟:獲取原始地址數據;
地址獲取步驟:結合全國行政區劃數據獲取所述原始地址數據中的前三級別地址以及后綴地址;
遍歷步驟:利用HashSet對所述原始地址數據進行遍歷,設置對應所述原始地址數據的狀態位;
檢查步驟:對所述狀態位進行檢查,糾正所述狀態位;
重復去除步驟:根據糾正后的所述狀態位去除重復的所述前三級別地址及/或后綴地址。
2.如權利要求1所述的基于狀態位的中文地址去重方法,其特征在于,所述地址獲取步驟中的所述前三級別地址包括省市區縣的隸屬關系。
3.如權利要求1所述的基于狀態位的中文地址去重方法,其特征在于,所述狀態位分為重復狀態位和非重復狀態位。
4.如權利要求1所述的基于狀態位的中文地址去重方法,其特征在于,所述檢查步驟具體包括以下步驟:
狀態位糾正步驟:對所述狀態位進行糾正;
后綴檢查步驟:對所述狀態位進行重復字串后綴檢查。
5.如權利要求4所述的基于狀態位的中文地址去重方法,其特征在于,所述狀態位糾正步驟具體包括以下步驟:
第一判斷步驟:判斷所述重復狀態位是否連續大于等于兩位;
第一糾正步驟:若是則所述重復狀態位不變,若否則將所述重復狀態位糾正為所述非重復狀態位。
6.如權利要求4所述的基于狀態位的中文地址去重方法,其特征在于,所述后綴檢查步驟具體包括以下步驟:
設置步驟:設置后綴集合;
第二判斷步驟:判斷所述原始地址數據中標記所述重復狀態位的重復地址是否與所述后綴集合匹配;
第二糾正步驟:若是則將所述重復地址的狀態位糾正為所述非重復狀態位,若否則所述重復地址的狀態位不變。
7.一種基于狀態位的中文地址去重系統,其特征在于,包括:
數據獲取模塊,獲取原始地址數據;
地址獲取模塊,結合全國行政區劃數據獲取所述原始地址數據中的前三級別地址以及后綴地址字符串;
遍歷模塊,利用HashSet對所述原始地址數據進行遍歷,設置對應所述原始地址數據的狀態位;
檢查模塊,對所述狀態位進行檢查,糾正所述狀態位;
重復去除模塊,根據糾正后的所述狀態位去除重復的所述前三級別地址及/或后綴地址。
8.如權利要求7所述的基于狀態位的中文地址去重系統,其特征在于,所述地址獲取模塊中的所述前三級別地址包括省市區縣的隸屬關系。
9.如權利要求7所述的基于狀態位的中文地址去重系統,其特征在于,所述檢查模塊具體包括:
狀態位糾正單元,對所述狀態位進行糾正;
后綴檢查單元,對所述狀態位進行重復字串后綴檢查。
10.一種設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6中任一項所述的基于狀態位的中文地址去重方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110037776.0/1.html,轉載請聲明來源鉆瓜專利網。





