[發明專利]基于字符串匹配的身份證住址信息解析方法及系統有效
| 申請號: | 201510445546.2 | 申請日: | 2015-07-24 |
| 公開(公告)號: | CN105069056B | 公開(公告)日: | 2018-02-06 |
| 發明(設計)人: | 吳釗;胡春陽;谷瓊 | 申請(專利權)人: | 湖北文理學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 嚴彥 |
| 地址: | 441053 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 字符串 匹配 身份證 住址 信息 解析 方法 系統 | ||
1.一種基于字符串匹配的身份證住址信息解析方法,其特征在于:包括以下步驟,
步驟1,首先獲得全國省市縣區及其對應代碼,作為初始的地址條目進行規整化處理,包括將省市縣及區進行分離,規整后的地址代碼條目持久存入數據庫中;
步驟2,初始化,包括將數據庫中所有規整化的地址代碼條目讀入存儲介質中,對每個地址代碼條目同時用兩種映射方式存儲,一種是設從高級到低級依次為省、市、縣、區,取地址代碼條目中最低級別的字段與代碼的字典映射,記為映射A;另一種是代碼到省市縣全稱的映射,記為映射B;
步驟3,讀入一條身份證住址信息的字符串;
步驟4,對當前讀入的這條身份證住址信息的字符串進行處理,只保留區、縣和市相應關鍵字,得到關鍵信息串;
步驟5,設從低級到高級依次為區、縣、市,將步驟4所得關鍵信息串從低級到高級依次進行匹配截取,包括以下子步驟,
步驟5.1,從關鍵信息串中,提取最低級的子串;
步驟5.2,將當前所取子串與存儲介質中的規整化地址代碼條目進行查詢匹配,
如果匹配成功則根據映射A返回對應的代碼,結束對當前讀入的這條身份證住址信息匹配,根據映射B由代碼檢索到相應規范的省市縣全稱,結束本步驟進入步驟6;
否則進入步驟5.3;
步驟5.3,舍棄當前的子串,從關鍵信息串中,按照區、縣、市的順序,提取高一級的子串,
如果提取失敗,匹配失敗,結束本步驟進入步驟6;
如果提取成功則返回執行步驟5.2;
步驟6,如果還需繼續進行身份證地址解析,返回步驟3讀入下一條身份證住址信息的字符串進行處理,否則結束流程。
2.一種基于字符串匹配的身份證住址信息解析系統,其特征在于:包括以下模塊,
代碼存儲模塊,用于首先獲得全國省市縣區及其對應代碼,作為初始的地址條目進行規整化處理,包括將省市縣及區進行分離,規整后的地址代碼條目持久存入數據庫中;
初始化模塊,用于將數據庫中所有規整化的地址代碼條目讀入存儲介質中,對每個地址代碼條目同時用兩種映射方式存儲,一種是設從高級到低級依次為省、市、縣、區,取地址代碼條目中最低級別的字段與代碼的字典映射,記為映射A;另一種是代碼到省市縣全稱的映射,記為映射B;
信息輸入模塊,用于讀入一條身份證住址信息的字符串;
關鍵信息提取模塊,用于對當前讀入的這條身份證住址信息的字符串進行處理,只保留區、縣和市相應關鍵字,得到關鍵信息串;
分級匹配模塊,設從低級到高級依次為區、縣、市,將關鍵信息提取模塊所得關鍵信息串從低級到高級依次進行匹配截取,包括以下子模塊,
初始子串提取子模塊,用于從關鍵信息串中,提取最低級的子串;
查詢匹配子模塊,用于將當前所取子串與存儲介質中的規整化地址代碼條目進行查詢匹配,
如果匹配成功則根據映射A返回對應的代碼,結束對當前讀入的這條身份證住址信息匹配,根據映射B由代碼檢索到相應規范的省市縣全稱,結束分級匹配模塊工作,命令迭代判斷模塊工作;
否則命令子串更新子模塊工作;
子串更新子模塊,用于舍棄當前的子串,從關鍵信息串中,按照區、縣、市的順序,提取高一級的子串,
如果提取失敗,匹配失敗,結束分級匹配模塊工作,命令迭代判斷模塊工作;
如果提取成功則命令查詢匹配子模塊工作;
迭代判斷模塊,用于判斷如果還需繼續進行身份證地址解析,命令信息輸入模塊讀入下一條身份證住址信息的字符串進行處理,否則結束系統工作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北文理學院,未經湖北文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510445546.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種浸泡清洗盆
- 下一篇:一種冰箱保潔柜一體機





