[發明專利]基于字符串匹配的身份證住址信息解析方法及系統有效
| 申請號: | 201510445546.2 | 申請日: | 2015-07-24 |
| 公開(公告)號: | CN105069056B | 公開(公告)日: | 2018-02-06 |
| 發明(設計)人: | 吳釗;胡春陽;谷瓊 | 申請(專利權)人: | 湖北文理學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 嚴彥 |
| 地址: | 441053 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 字符串 匹配 身份證 住址 信息 解析 方法 系統 | ||
技術領域
本發明涉及到計算機工程技術應用領域,更具體地,是基于字符串匹配的身份證住址信息解析技術方案。
背景技術
二十一世紀是信息化的時代,為了使人們的生活越來越智能化、互聯化,個人信息數字化網絡化是必要的一步。居民身份證作為居民最主要的身份象征,對于人員活動標識具有重要意義,基于此的用戶信息分析對于用戶體驗及居民安全更具有重大意義。而通過身份證獲取居民住址信息則是數字化個人信息的一個重要應用。
身份證住址信息解析系統首先讀入用戶身份證信息,然后根據身份證信息獲取用戶所在的省、市、縣以及詳細住址等信息。現有的身份證住址解析系統可以分為兩大類,一類是簡單式的,一類是復雜式的。
簡單式的身份證住址解析系統就是讀取身份證號碼,然后根據身份證號碼的前六位進行解析:其中前兩位為省份代碼,后四位為市縣代碼。根據目前已有身份證代碼大全表,可以獲得任何身份證所包含的省市直至縣區信息。這種方式最大的優點就是實現簡單,主要問題是身份證號碼所包含的住址信息對應出生所在地,而不是當前實際住址,因此并不是很準確。
復雜式的身份住址解析系統就是通過直接解析身份證里面的住址信息獲取省市縣信息,從而得到當前戶口所在地信息。這種方式可以準確定位到當前戶口所在地,但由于住址信息字段的不規則性,地址解析復雜度高,現有系統無法可靠高效地解析身份證住址信息。
因此現在實際用戶信息分析工作中,常常需要依賴人工一一查證處理,尤其是在涉及海量人口信息數據時,缺乏有效地技術手段。
發明內容
本發明解決的技術問題在于:正確處理不規整身份證住址信息,快速準確的解析出身份證住址信息中的省市縣信息,從而得到其對應的代號和規范化地址。
本發明進一步解決的問題在于:在保證數據可靠的基礎上,大幅度提高數據同步的效率。
本發明進一步解決的問題在于:大幅度提高在復雜情況及大數據量下的身份證地址解析的準確率及效率。
本發明的技術方案提供一種基于字符串匹配的身份證住址信息解析方法,包括以下步驟,
步驟1,首先獲得全國省市縣區及其對應代碼,作為初始的地址條目進行規整化處理,包括將省市縣及區進行分離,規整后的地址代碼條目持久存入數據庫中;
步驟2,初始化,包括將數據庫中所有規整化的地址代碼條目讀入存儲介質中,對每個地址代碼條目同時用兩種映射方式存儲,一種是設從高級到低級依次為省、市、縣、區,取地址代碼條目中最低級別的字段與代碼的字典映射,記為映射A;另一種是代碼到省市縣全稱的映射,記為映射B;
步驟3,讀入一條身份證住址信息的字符串;
步驟4,對當前讀入的這條身份證住址信息的字符串進行處理,只保留區、縣和市相應關鍵字,得到關鍵信息串;
步驟5,設從低級到高級依次為區、縣、市,將步驟4所得關鍵信息串從低級到高級依次進行匹配截取,包括以下子步驟,
步驟5.1,從關鍵信息串中,提取最低級的子串;
步驟5.2,將當前所取子串與存儲介質中的規整化地址代碼條目進行查詢匹配,
如果匹配成功則根據映射A返回對應的代碼,結束對當前讀入的這條身份證住址信息匹配結果,根據映射B由代碼檢索到相應規范的省市縣全稱,結束本步驟進入步驟6;
否則進入步驟5.3;
步驟5.3,舍棄當前的子串,從關鍵信息串中,按照區、縣、市的順序,提取高一級的子串,
如果提取失敗,匹配失敗,結束本步驟進入步驟6;
如果提取成功則返回執行步驟5.2,直到匹配成功或匹配失敗;
步驟6,如果還需繼續進行身份證地址解析,返回步驟3讀入下一條身份證住址信息的字符串進行處理,否則結束流程。
本發明還相應提供一種基于字符串匹配的身份證住址信息解析系統,包括以下模塊,
代碼存儲模塊,用于首先獲得全國省市縣區及其對應代碼,作為初始的地址條目進行規整化處理,包括將省市縣及區進行分離,規整后的地址代碼條目持久存入數據庫中;
初始化模塊,用于將數據庫中所有規整化的地址代碼條目讀入存儲介質中,對每個地址代碼條目同時用兩種映射方式存儲,一種是設從高級到低級依次為省、市、縣、區,取地址代碼條目中最低級別的字段與代碼的字典映射,記為映射A;另一種是代碼到省市縣全稱的映射,記為映射B;
信息輸入模塊,用于讀入一條身份證住址信息的字符串;
關鍵信息提取模塊,用于對當前讀入的這條身份證住址信息的字符串進行處理,只保留區、縣和市相應關鍵字,得到關鍵信息串;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北文理學院,未經湖北文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510445546.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種浸泡清洗盆
- 下一篇:一種冰箱保潔柜一體機





