[發明專利]一種提取地址的方法及裝置有效
| 申請號: | 201710982783.1 | 申請日: | 2017-10-20 | 
| 公開(公告)號: | CN107748778B | 公開(公告)日: | 2021-03-23 | 
| 發明(設計)人: | 王功明;郭運艷;張嫻;王本強;衣秀 | 申請(專利權)人: | 浪潮軟件股份有限公司 | 
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33 | 
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 | 
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 地址 方法 裝置 | ||
本發明提供了一種提取地址的方法及裝置,該方法,包括:預先設置地址樹,其中,所述地址樹的每個結點對應一個地址單元,每個結點中包括對應地址單元的至少一個地址名稱;針對所述地址樹中每個具有子結點的結點,當前結點是根據當前地址單元生成的,所述當前結點的每個子結點是根據所述當前地址單元對應的下一級地址單元生成的;根據所述地址樹中各個結點中的至少一個地址名稱,將目標字符串與所述地址樹進行匹配,當所述目標字符串中存在與所述地址樹相匹配的至少一個匹配地址時,提取出所述至少一個匹配地址。本發明能夠減少提取地址所需要的時間,從整體上提高多級地址匹配的性能。
技術領域
本發明涉及計算機技術領域,特別涉及一種提取地址的方法及裝置。
背景技術
在進行文本處理時,經常需要提取出文本中的地址。地址可以劃分為國家、省、市、縣、鄉、社區、街道等10個級別,實際地址名稱是多個地址單元按照由高到低的級別連接而成,在連接時存在地址跳躍問題(級別的不連續性),如“河南省登封縣”就略去了地址單元“鄭州市”。由于歷史原因,不少地址單元都存在別名,如“北京市”的別名包括:北京、北平、京、燕京等。對于地址跳躍問題,以及復雜多變的地址別名,現有的地址識別方案存在一定的問題。
現有技術中,主要通過以下方式來實現:建立地址索引數據庫,包括不同級別的地址單元索引;對待處理的文本進行掃描,得到所有可能的字符串;最后,針對每個字符串,在地址索引數據庫中搜索匹配。
通過上述描述可見,在地址索引數據庫中的地址單元較多的情況下,現有技術中,需要每個字符串與這些地址單元進行匹配,整個提取過程需要消耗大量的時間。
發明內容
本發明實施例提供了一種提取地址的方法及裝置,能夠減少提取地址所需要的時間。
一方面,本發明實施例提供了一種提取地址的方法,包括:
預先設置地址樹,其中,所述地址樹的每個結點對應一個地址單元,每個結點中包括對應地址單元的至少一個地址名稱;針對所述地址樹中每個具有子結點的結點,當前結點是根據當前地址單元生成的,所述當前結點的每個子結點是根據所述當前地址單元對應的下一級地址單元生成的;
根據所述地址樹中各個結點中的至少一個地址名稱,將目標字符串與所述地址樹進行匹配,當所述目標字符串中存在與所述地址樹相匹配的至少一個匹配地址時,提取出所述至少一個匹配地址。
進一步地,
所述根據所述地址樹中各個結點中的至少一個地址名稱,將目標字符串與所述地址樹進行匹配,當所述目標字符串中存在與所述地址樹相匹配的至少一個匹配地址時,提取出所述至少一個匹配地址,包括:
S1:將所述目標字符串的第一個字符作為當前字符;
S2:將所述地址樹的首結點作為當前結點,執行S3;
S3:判斷當前結點的至少一個地址名稱中是否存在與從所述當前字符開始的子字符串相匹配的地址名稱,如果是,則執行S6,否則,執行S4;
S4:判斷是否存在沒有與當前字符匹配過的且與當前結點對應同一個父結點的目標結點,如果是,則從所述目標結點中確定出下一個待處理的結點,將所述待處理的結點作為當前結點,返回S3,否則,執行S5;
S5:判斷當前字符是否是所述目標字符串的最后一個字符,如果是,則當存在至少一個匹配地址名稱時,根據所述至少一個匹配地址名稱,提取出所述至少一個匹配地址,結束當前流程,否則,將當前字符的下一個字符作為當前字符,返回S2;
S6:確定與從所述當前字符開始的子字符串相匹配的地址名稱中長度最長的匹配地址名稱,執行S7;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件股份有限公司,未經浪潮軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710982783.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:掃描食材圖片菜譜自動生成系統
 - 下一篇:帶過流保護功能的墻壁開關
 





