[發明專利]基于語義分詞技術的地名地址可視化分析方法在審
| 申請號: | 202010041836.1 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111222345A | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 盧廣師 | 申請(專利權)人: | 合肥慧圖軟件有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/242;G06F16/903 |
| 代理公司: | 合肥匯融專利代理有限公司 34141 | 代理人: | 楊家坤 |
| 地址: | 230000 安徽省合肥*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 分詞 技術 地名 地址 可視化 分析 方法 | ||
本發明公開了一種基于語義分詞技術的地名地址可視化分析方法。包括步驟:獲取初始地址數據,對所述初始地址數據進行地址清洗,生成清洗后的地址數據;對所述清洗后的地址數據進行拆分,生成拆分后的地址數據;獲取并分析所述現有地址數據,生成地址模型;根據存儲和收集的所述地址模型,生成標準地址庫;根據所述標準地址庫,對所述拆分后的地址數據進行地址庫匹配,生成匹配結果。本發明能夠解決現有技術的不足。
技術領域
本發明涉及地名地址可視化分析技術領域,具體涉及一種基于語義分詞技術的地名地址可視化分析方法。
背景技術
根據地址詞典,為數據庫中每條記錄的匹配結果添加地理坐標,由此可以快速準確的把包含地址信息的普通數據變成地理對象顯示在地圖上。除此之外還有批量處理模式,可以對數百萬數據表記錄進行匹配,甚至可以利用ODBC實現遠程匹配等。具備實時更新的地址數據詞典可以用于提高地址匹配的準確性和容錯率。
各行各業都在自己的應用系統基礎上建立了一套編碼系統,有自己獨特的地理單元劃分標準,雖然國家標準給出了詞和分詞單位的非形式定義,但這些編碼體系在空間單元上并沒有統一的、標準的地理參考系統,它們在數字城市的管理中,最小單元的邊界都不相同,使得相互之間很難共享信息資源。同時,城市地理信息資源的分類沒有標準,也沒有統一的地理代碼,限制了現代化手段的使用。
發明內容
針對現有技術的不足,本發明公開一種基于語義分詞技術的地名地址可視化分析方法,能夠解決現有技術的不足。
為實現以上目的,本發明通過以下技術方案予以實現:
基于語義分詞技術的地名地址可視化分析方法,包括以下步驟:
S1:獲取初始地址數據,對所述初始地址數據進行地址清洗,生成清洗后的地址數據;
S2:對所述清洗后的地址數據進行拆分,生成拆分后的地址數據;
S3:獲取并分析所述現有地址數據,生成地址模型;
S4:根據存儲和收集的所述地址模型,生成標準地址庫;
S5:根據所述標準地址庫,對所述拆分后的地址數據進行地址庫匹配,生成匹配結果。
優選的技術方案,還包括步驟S21對所述清洗后的地址數據進行數據排錯,生成錯誤數據結果。
進一步優選的技術方案,還包括步驟S22根據所述錯誤數據結果對初始地址數據進行批量預處理。
優選的技術方案,還包括步驟S6評價匹配結果的精度,生成精度結果。
本發明公開一種基于語義分詞技術的地名地址可視化分析方法,具有以下優點:
中文語義地址模型:以普查數據為基礎,分析現有地址數據結構,總結地址數據特點及現有模型的劣勢,并提出基于語義的地址模型構建方法。
中文語義標準地址庫建設:標準地址庫作為地址匹配的本底數據在基于語義的地質模型構建基礎之上,進行地址庫結構設計,并利用建筑物普查數據構建標準地址庫。
基于語義分析的地址匹配方法:在已有地址模型的基礎上,利用自然語言處理的方法完成地址拆分、地址解析和地址庫匹配,以及不確定性有限狀態機進行地址解析,糾正常見的錯誤地址,通過隱含馬爾可夫模型與信息論原理實現地址庫匹配。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹。
顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥慧圖軟件有限公司,未經合肥慧圖軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010041836.1/2.html,轉載請聲明來源鉆瓜專利網。





