[發明專利]中文地址識別系統在審
| 申請號: | 201810713311.0 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109033225A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 郭文忠;陳立群;郭昆;陳羽中 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址標準化 關系構建 數據預處理模塊 地址管理模塊 地址識別系統 清洗模塊 準確率 中文 預處理 地址信息獲取 源地址數據 地址標簽 地址模型 地址數據 匹配方式 有效地址 智能識別 地址庫 人群 分級 去重 管理 | ||
本發明涉及一種中文地址識別系統,包括:數據預處理模塊、地址標準化模塊、地址清洗模塊、關系構建模塊以及地址管理模塊。數據預處理模塊將源地址數據輸入后進行預處理,并粗分成詞。地址標準化模塊通過Trie樹結構與正則匹配方式對有效地址進行十級地址標準化處理。地址清洗模塊包括地址補全和地址去重。關系構建模塊包括地址標簽識別與人群關系構建。地址管理模塊包括地址模型管理和地址庫管理。本發明通過結合Trie樹與有限自動機能有效提高中文地址標準化分級的準確率,對于龐大的地址數據有較快的處理速率,對于相似地址的智能識別也有較高的準確率,并能根據地址信息獲取人群關系。
技術領域
本發明涉及一種中文地址識別系統。
背景技術
在地理信息系統中,地理編碼技術有著廣泛的應用。地理編碼過程中,最核心的是地址匹配技術,地址匹配技術的好壞,直接影響到地理編碼的準確性和效率。全文索引、中文分詞、分級別匹配和模糊地址匹配是目前常用的地址匹配算法。陳細謙等嘗試在地址標準化過程中通過錯誤總結和使用有限狀態機實現地址的規范化,由于錯誤類型的復雜性,使得實際中總匹配率只有50%左右;孫亞夫等提出利用最大正向匹配算法在進行分詞的同時查詢判斷地址要素,但地址匹配過分依賴詞庫,對于未登記的地址和包含干擾詞的地址匹配率較低;孫存群等提出分級地址庫模型,減少了維護分詞的步驟,簡化了實現流程,林澍哲提出分詞和地址加權的匹配模型,減少了數據冗余,提高了匹配兼容性,但由于兩者過分依賴數據庫查詢,性能不高;張作華等嘗試先進行地址分詞再按照不同公式進行數據庫查詢來減少查詢次數,由于地址級別的復雜性,地址到公式的轉換仍然是個比較困難的問題;程昌秀等用基于規則的模糊中文分詞進行地址匹配,由于地址級別的跳躍不規律,規則很難做到通用。以上研究提出了很多地址匹配方法,但由于地址命名多樣化,地址級別跳躍不規律,干擾詞普遍存在,地址匹配還是存在著一些問題,同時由于地址匹配系統數據量龐大,系統的匹配性能低下也是亟須解決的問題。
發明內容
本發明的目的在于提供一種中文地址識別系統,以克服現有技術中存在的缺陷。
為實現上述目的,本發明的技術方案是:一種中文地址識別系統,包括:
數據預處理模塊;將源地址數據輸入后進行預處理,并粗分成詞;
地址標準化模塊;對于行政區域地址數據,利用 Trie 樹結構尋找標準的前4級地址特征,得到相應行政區域包含的分級標注地址;對于非標準庫內的地址數據,使用基于正則匹配的地址分級識別方法,進行關鍵字提取;使用有限狀態自動機按照地址標注等級的跳轉規則驗證提取后地址的有效性;
地址清洗模塊;地址清洗模塊包括地址補全和地址去重;所述地址補全采用基于相似地址的相應部分進行補全,實現詳細地址規范化;所述地址去重對同一人的多個地址進行去重,保留不同的地址以及統計每條地址的使用次數;
關系構建模塊;關系構建模塊包括地址標簽識別與人群關系構建;所述地址標簽識別將地址通過一API獲取其地址標簽并存入數據庫;所述人群關系構建依據地址標簽與人群關系的映射表確定人群關系;地址標簽及人群關系構建的結果均存入數據庫;
地址管理模塊;地址管理模塊包括地址模型管理和地址庫管理;地址模型管理對Trie樹模型創建、存儲、導入以及查詢;地址庫管理模塊對MongoDB數據庫的插入、查詢、修改和刪除。
在本發明一實施例中,所述數據預處理模塊對輸入的郵遞源地址數據進行去除噪聲地址、去除地址中的特殊符號處理,排除無效或是不可識別的地址,然后再由HanLP切詞工具將余下的有效地址粗分成詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810713311.0/2.html,轉載請聲明來源鉆瓜專利網。





