[發明專利]基于語義分詞技術的地名地址可視化分析方法在審

申請號：	202010041836.1	申請日：	2020-01-15
公開（公告）號：	CN111222345A	公開（公告）日：	2020-06-02
發明（設計）人：	盧廣師	申請（專利權）人：	合肥慧圖軟件有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/242;G06F16/903
代理公司：	合肥匯融專利代理有限公司 34141	代理人：	楊家坤
地址：	230000 安徽省合肥***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語義分詞技術地名地址可視化分析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于語義分詞技術的地名地址可視化分析方法。包括步驟：獲取初始地址數據，對所述初始地址數據進行地址清洗，生成清洗后的地址數據；對所述清洗后的地址數據進行拆分，生成拆分后的地址數據；獲取并分析所述現有地址數據，生成地址模型；根據存儲和收集的所述地址模型，生成標準地址庫；根據所述標準地址庫，對所述拆分后的地址數據進行地址庫匹配，生成匹配結果。本發明能夠解決現有技術的不足。

技術領域

本發明涉及地名地址可視化分析技術領域，具體涉及一種基于語義分詞技術的地名地址可視化分析方法。

背景技術

根據地址詞典，為數據庫中每條記錄的匹配結果添加地理坐標，由此可以快速準確的把包含地址信息的普通數據變成地理對象顯示在地圖上。除此之外還有批量處理模式，可以對數百萬數據表記錄進行匹配，甚至可以利用ODBC實現遠程匹配等。具備實時更新的地址數據詞典可以用于提高地址匹配的準確性和容錯率。

各行各業都在自己的應用系統基礎上建立了一套編碼系統，有自己獨特的地理單元劃分標準，雖然國家標準給出了詞和分詞單位的非形式定義，但這些編碼體系在空間單元上并沒有統一的、標準的地理參考系統，它們在數字城市的管理中，最小單元的邊界都不相同，使得相互之間很難共享信息資源。同時，城市地理信息資源的分類沒有標準，也沒有統一的地理代碼，限制了現代化手段的使用。

發明內容

針對現有技術的不足，本發明公開一種基于語義分詞技術的地名地址可視化分析方法，能夠解決現有技術的不足。

為實現以上目的，本發明通過以下技術方案予以實現：

基于語義分詞技術的地名地址可視化分析方法，包括以下步驟：

S1：獲取初始地址數據，對所述初始地址數據進行地址清洗，生成清洗后的地址數據；

S2：對所述清洗后的地址數據進行拆分，生成拆分后的地址數據；

S3：獲取并分析所述現有地址數據，生成地址模型；

S4：根據存儲和收集的所述地址模型，生成標準地址庫；

S5：根據所述標準地址庫，對所述拆分后的地址數據進行地址庫匹配，生成匹配結果。

優選的技術方案，還包括步驟S21對所述清洗后的地址數據進行數據排錯，生成錯誤數據結果。

進一步優選的技術方案，還包括步驟S22根據所述錯誤數據結果對初始地址數據進行批量預處理。

優選的技術方案，還包括步驟S6評價匹配結果的精度，生成精度結果。