[發(fā)明專利]基于地址樹模型的中文地址提取方法在審
| 申請?zhí)枺?/td> | 202010216951.8 | 申請日: | 2020-03-25 |
| 公開(公告)號: | CN111444299A | 公開(公告)日: | 2020-07-24 |
| 發(fā)明(設(shè)計)人: | 張平;亢孟軍;汪艷霞;葉蕾;劉越;曾偉東;陳建;黃磊;劉仁;林熹 | 申請(專利權(quán))人: | 福州市勘測院 |
| 主分類號: | G06F16/29 | 分類號: | G06F16/29;G06F40/289;G06F40/30 |
| 代理公司: | 福州元創(chuàng)專利商標代理有限公司 35100 | 代理人: | 丘鴻超;蔡學(xué)俊 |
| 地址: | 350108 福建*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 地址 模型 中文 提取 方法 | ||
本發(fā)明提出一種基于地址樹模型的中文地址提取方法,包括以下步驟:步驟S1:對地址字符串進行分詞和識別,生成地址元素集合以及地址元素語義集合;步驟S2:建立根結(jié)點root,提取地址元素,遍歷地址元素的語義集,構(gòu)建地址語義結(jié)點,并依次連結(jié)到根節(jié)點;步驟S3:提取后續(xù)地址元素,遍歷其語義結(jié)點;執(zhí)行語義級別的比較和空間約束關(guān)系一致性判斷,進行與葉子節(jié)點的連接或生成新的子樹。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)、數(shù)據(jù)檢索、計算機數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于地址樹模型的中文地址提取方法。
背景技術(shù)
地址是一種對個體地域空間位置信息的編碼方法,在我國,由于城市快速發(fā)展,地址規(guī)劃相對落后,非標準地址大量存在。
以門牌的管理為例,如說明書附圖圖1所示,“福州市勘測院”所在的地址為“福州市鼓樓區(qū)湖東路188號”,該地址模型為“市|區(qū)|道路|門牌號”,其中,“市|區(qū)”部分由民政部地名辦公室管理,“道路”由區(qū)(縣)地名辦公室管理,而“門牌號”由公安部門管理。目前全國到各省市,尚無一個統(tǒng)一的協(xié)調(diào)機構(gòu),這種突出的矛盾已經(jīng)無法滿足城市規(guī)劃和信息化發(fā)展的需求。
表1福州市地址模型示例
中文地址模型研究已經(jīng)得到越來越多學(xué)者關(guān)注,在《福州市居民地地名標志設(shè)置規(guī)范》中,已經(jīng)對福州市的地址模型進行了全面的規(guī)范。表1通過分析福州市部分地址,提取了幾種常用的地址模型,可以得到以下四個結(jié)論:
(1)行政區(qū)劃在地址模型中作用重要,作為主要的空間區(qū)域約束元素;(2)由于缺乏唯一、標準的地址表述,在描述地址時,人們總是提供盡可能多的描述信息,導(dǎo)致地址描述的信息冗余,這種冗余亦可能導(dǎo)致地址歧義;(3)在有明確門牌號的情況下,人們愿意選擇門牌描述地址。但是由于門牌規(guī)劃、標示不充分,導(dǎo)致用戶不得不選擇公共設(shè)施、單位名等穩(wěn)定性低的地名作為地址描述;(4)新舊城區(qū)無統(tǒng)一標準,部分城中村編碼方案混亂,有采用門牌號的,也有采用樓棟號的;
地址模型是地址標準化的核心,也是實施地理編碼的核心。地址模型的確立需要有完善的規(guī)劃方案作為前提,同時要兼顧用戶的空間認知習(xí)慣,以引導(dǎo)為主,逐步推進地址規(guī)范化的有效實施。而針對目前的非標準地址大量存在的現(xiàn)實,通過人工識別分類等方式難以有效進行大量的地址提取,因此通過計算機程序?qū)崿F(xiàn)有效的地址提取算法是唯一解決辦法。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的缺陷和不足的問題,本發(fā)明提出了一種基于地址樹模型的中文地址提取方法,該方法以地址元素的空間約束關(guān)系為條件,提出一種地址樹模型,通過地址元素的識別、空間約束關(guān)系的重構(gòu)、地址原始指向的識別、錯誤地址元素剔除以及地址冗余信息的過濾,提取標準地址,提高地址匹配的準確性。地址提取的過程是在地址元素的語義集合中,尋找一條符合空間約束關(guān)系的連通路徑,每條子地址可看作地址描述的一個子樹,這種特點適合用樹模型進行地址解析。實驗證明,該方法有較高的地址匹配率。
其具體采用以下技術(shù)方案:
一種基于地址樹模型的中文地址提取方法,其特征在于,包括以下步驟:
步驟S1:對地址字符串進行分詞和識別,生成地址元素集合X以及地址元素語義集合S;
步驟S2:建立根結(jié)點root,提取地址元素x1,遍歷地址元素x1的語義集S1,構(gòu)建地址語義結(jié)點,并依次連結(jié)到根節(jié)點;
步驟S3:提取后續(xù)地址元素xi,遍歷其語義結(jié)點Si;執(zhí)行語義級別的比較和空間約束關(guān)系一致性判斷,進行與葉子節(jié)點的連接或生成新的子樹。
優(yōu)選地,步驟S3具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州市勘測院,未經(jīng)福州市勘測院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010216951.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





