[發明專利]中文地址識別系統在審
| 申請號: | 201810713311.0 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN109033225A | 公開(公告)日: | 2018-12-18 |
| 發明(設計)人: | 郭文忠;陳立群;郭昆;陳羽中 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 蔡學俊 |
| 地址: | 350108 福建省福*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 地址標準化 關系構建 數據預處理模塊 地址管理模塊 地址識別系統 清洗模塊 準確率 中文 預處理 地址信息獲取 源地址數據 地址標簽 地址模型 地址數據 匹配方式 有效地址 智能識別 地址庫 人群 分級 去重 管理 | ||
1.一種中文地址識別系統,其特征在于,包括:
數據預處理模塊;將源地址數據輸入后進行預處理,并粗分成詞;
地址標準化模塊;對于行政區域地址數據,利用 Trie 樹結構尋找標準的前4級地址特征,得到相應行政區域包含的分級標注地址;對于非標準庫內的地址數據,使用基于正則匹配的地址分級識別方法,進行關鍵字提取,使用有限狀態自動機按照地址標注等級的跳轉規則驗證提取后地址的有效性;
地址清洗模塊;地址清洗模塊包括地址補全和地址去重;所述地址補全采用基于相似地址的相應部分進行補全,實現詳細地址規范化;所述地址去重對同一人的多個地址進行去重,保留不同的地址以及統計每條地址的使用次數;
關系構建模塊;關系構建模塊包括地址標簽識別與人群關系構建;所述地址標簽識別將地址通過一API獲取其地址標簽并存入數據庫;所述人群關系構建依據地址標簽與人群關系的映射表確定人群關系;地址標簽及人群關系構建的結果均存入數據庫;
地址管理模塊;地址管理模塊包括地址模型管理和地址庫管理;地址模型管理對Trie樹模型創建、存儲、導入以及查詢;地址庫管理模塊對MongoDB數據庫的插入、查詢、修改和刪除。
2.根據權利要求1所述的中文地址識別系統,其特征在于,所述數據預處理模塊對輸入的郵遞源地址數據進行去除噪聲地址、去除地址中的特殊符號處理,排除無效或是不可識別的地址,然后再由HanLP切詞工具將余下的有效地址粗分成詞。
3.根據權利要求1所述的中文地址識別系統,其特征在于,所述地址標準化模塊通過Trie樹結構與正則匹配方式對有效地址進行十級地址標準化處理,包括:前四級的標準行政地址的標準化和后六級的詳細地址的標準化;通過對標準的四級地址分詞構建Trie樹,輸出Trie樹模型并保存到數據庫中;對于輸入的待分級識別的樣本數據,通過分詞再導入Tire樹模型進行模糊匹配識別出前四級的標準行政地址,而后再導入有限狀態自動機進行正則匹配出后六級的詳細地址,最后合并輸出地址的十級標注。
4.根據權利要求3所述的中文地址識別系統,其特征在于,所述前四級的標準行政地址利用識別搜索算法在Trie樹中進行識別,所述識別搜索算法按照如下步驟實現:
步驟S1:輸入分詞后的樣本數據地址段;
步驟S2:根節點放入隊列;
步驟S3:判斷當前隊列是否為空;若不為空,轉步驟S4;否則轉步驟S10;
步驟S4:取出隊首元素,并判斷其是否有子節點;若有,轉步驟S5;否則轉步驟S3;
步驟S5:遍歷一個子節點,判斷子節點的值是否與當前地址段匹配;若匹配,轉步驟S6;否則,轉步驟S7;
步驟S6:判斷當前是否是第一個地址段,并且與之匹配上的是第三級或第四級的地址,若是,將該節點存入一個list中,轉步驟S7,否則,轉步驟S8;
步驟S7:將當前節點的所有子節點放入隊列中,轉步驟S9;
步驟S8:判斷上一步是否匹配到多個結果,并且與之匹配到的是第四級地址;若是,更新list,轉步驟S9;否則,清空當前隊列,再將當前節點加入隊列,轉步驟S3;
步驟S9:判斷當前元素是否為最后一個子節點;若是,轉步驟S3;否則,轉步驟S5;
步驟S10:從list中找出地址級別最大的節點,依次向上找出其父節點,得到匹配完的前四級結果;
步驟S11:判斷以上結果中是否包含null,并且剩余地址段是否存在前四級地址;若是,轉S12,否則輸出結果;
步驟S12:將剩余地址再次進行樹匹配,將再次匹配的結果與原結果進行比較;若再次匹配得到的結果包含了原結果,那么更新這個結果,并輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810713311.0/1.html,轉載請聲明來源鉆瓜專利網。





