[發明專利]一種基于語義識別和高級語言搜索的地址標準化方法在審
| 申請號: | 202010038989.0 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111291277A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 王新根;魯萍;王新宇;許俊杰;張歡歡 | 申請(專利權)人: | 浙江邦盛科技有限公司 |
| 主分類號: | G06F16/9537 | 分類號: | G06F16/9537;G06F16/29;G06F40/232;G06F40/242;G06F40/289;G06F40/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310012 浙江省杭州市西湖*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 識別 高級 語言 搜索 地址 標準化 方法 | ||
1.一種基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述地址標準化方法包括:
對原始地址進行分詞標注,根據分詞標注結果先進行規范化處理,然后再依據分詞標注結果作為地址分段信息,并根據如下的分段匹配規則檢索標準地址庫;
1)將地址分段分為名稱和后綴詞兩部分;
2)對名稱根據同音字典、形近字典進行比較;
3)對同一類型的字典庫中的后綴詞依據同義后綴詞典進行匹配;
4)基于編輯距離算法(EditDistance)的進行比較。
根據匹配和比較的結果得到標準地址庫中的最佳標準地址;通過原始地址與最佳標準地址的對比,可以對地址的真實性、區域性、同類地址的一致性進行驗證,并可以通過地址標準化挖掘數據信息,提高運營效率。
2.根據權利要求1所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述分詞標注通過適用于中文地址分詞標記的深度學習模型實現,該模型基于BiLSTM-CRF神經網絡算法,用百萬條以上的地址數據訓練得到。
3.根據權利要求2所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述分詞標注的深度學習模型還包括五級行政區劃、自然村、全國道路、住宅區、商務樓宇、銀行、醫院、學校等字典庫,以及結合中文地址以及單位名稱的特殊命名規范的分詞標注規則。
4.根據權利要求1所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述規范化處理包括降噪、去重和補缺等,具體為根據行政區劃的所屬關系,進行分段補全以及分段去重,同時將地址中的噪聲詞刪除,通過去除冗余信息、調整順序使行政區域、基本區域限定物、局部點位置三大類要素符合中華人民共和國測繪行業標準化指導性技術文件《地理信息公共服務平臺地理實體與地名地址數據規范》,同時將地址中行政區劃代碼轉換為地址對應信息。
5.根據權利要求1所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述標準地址庫是以統計局中行政區劃數據為基礎,民政局數據作為補充,建立標準的行政區劃庫,并標明其各級所屬關系,根據地址中包含的行政區劃分段進行地址補全和所屬關系判斷,以糾正錯誤的地址行政區劃信息;同時在地址庫建立行政區劃與地址的對應關系表,根據行政區劃代碼查找對應的地址;并在標準地址庫建立噪聲詞庫,刪除地址分段中出現在噪聲詞庫中的信息。
6.根據權利要求4所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,依據原始輸入地址數據的行政區劃,以及基本區域限定物名稱并依據分段匹配規則在標準地址庫中檢索,獲取對應原始輸入地址的標準地址集合,依據集合中每條數據與原始數匹配情況得到唯一的標準地址。
7.根據權利要求1所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述分段匹配規則包括:在標準地址庫建立基于漢字字形結構形成的形近字字典,并根據地理實體名稱建立后綴詞庫;標準地址庫根據后綴詞庫對每個地址分段建立索引,匹配檢索時依據分段名稱和后綴詞可以快速的檢索到更多的相似地址數據。
8.根據權利要求7所述的基于語義識別和高級語言搜索的地址標準化方法,其特征在于,所述字形結構指的是獨體字、左右結構、左中右結構、上下結構等漢字組成結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江邦盛科技有限公司,未經浙江邦盛科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038989.0/1.html,轉載請聲明來源鉆瓜專利網。





