[發明專利]一種中文地址識別方法及設備有效
| 申請號: | 201910502405.8 | 申請日: | 2019-06-11 |
| 公開(公告)號: | CN110275940B | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 詹青 | 申請(專利權)人: | 北京貝殼時代網絡科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/205;G06F40/289;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王慶龍;苗曉靜 |
| 地址: | 100016 北京市朝陽區酒仙*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 地址 識別 方法 設備 | ||
本發明實施例提供一種中文地址識別方法及設備。所述方法包括獲取有序詞項序列和地址模型;地址模型包括地址要素層以及識別函數;根據拼接規則從有序詞項序列拼接得到待識別詞;并得到識別狀態;依次調用層級高于識別狀態顯示的層級的地址要素層的識別函數,與待識別詞進行匹配;若匹配成功,則將已識別地址要素記錄;更新所述識別狀態,并得到新的待識別詞,再對新的待識別詞進行匹配,直到有序詞項序列為空則判定本次匹配成功結束,本發明實施例通過構建包括地址要素層的地址模型,以及每個地址要素層的識別函數,分別對從有序詞項序列中提取出的詞項拼接得到待識別詞進行識別,從而能夠更加快速、準確得從待識別文本中得到正確的中文地址。
技術領域
本發明涉及生物計算機技術領域,尤其涉及一種中文地址識別方法及設備。
背景技術
在房地產相關的業務系統中,房屋的地理位置是一個非常重要的信息維度,在按地理位置進行的房屋查找篩選、數據統計、挖掘分析等業務處理過程中,常常要處理大量的地址信息,而這些地址信息大都是以文本形式存放在數據庫中,并不能直接進行處理和計算。因此,中文地址信息標準化建模是地址信息處理的重要步驟,而地址建模過程中地址元素識別的準確度將直接影響到后續業務處理的正確性。
現在技術中常見的方法有,基于正則表達式的匹配算法、基于關聯規則的方法、地址要素層級模型為核心的地址匹配方法、基于自然語義理解的方法。基于正則表達式的方法,實現起來最簡單,但效果也最差,因為算法完全是建立在字符串比較的基礎之上,沒辦法識別地址要素層級,很難對地址消歧,匹配準確率低,穩定性差,只能匹配一些簡單模式的地址。在基于關聯規則的算法中,是通過計算地址要素聯系的頻率實現關聯。其算法主要包括兩大塊:首先是在地址數據集中找出高頻地址要素組;其次是從這些高頻地址要素組中產生關聯規則。關聯規則挖掘的方法運用到對地址模型自適應構建,可以把兩個前后出現頻率高的地址要素看作高頻地址要素組,地址要素出現的頻率稱為支持度。首先找出地址數據集中所有的地址要素組,然后在這些地址要素組之間計算關聯規則。然而基于的算法需要大量的地址數據集進行訓練,因此無法進行冷啟動。并且關聯規則方法是基于最小支持度和最小信賴度來挖掘地址要素之間的聯系,末達到閾值的要素聯系是不會被提取出來的,就會造成一些低頻抽取模型的地址無法識別。以地址要素層級為核心的地址匹配方法認為地址要素都有存在層次級別屬性,每一類地址要素的屬性都有唯一的級別值。這類方法對地址的描述要求符合等級規則,地址要素對應的級別要按照升序排列。在實現中,首先要創建一個符合地址分級模型的地名庫,并在此基礎上通過地址串的拆分和匹配來完成地址標準化編碼工作,這種方法最大的困難需要人工維護的方式來建設最新數據量巨大的基礎地址庫。基于自然語言理解方面的地址匹配研究,就是利用自然語言理解這一人工智能領域新技術來建立新的中文地址匹配算法。由于機械分詞的主要缺點在于它不是從理解語義的角度出發,而是采用機械的字符串匹配方式來實現地址匹配,所以無未能處理采用非結構化形式的自然語言描述的中文地址,此時就要采用自然語言理解的地址匹配方法。但該類方法的缺點是對訓練集數據依賴性較高,實話前需要進行大量的地址訓練,無法冷啟動。
由于地址名詞本身具有的復雜性和多樣性,各地的地址使用習慣復雜多變,除了國家統計局對縣及縣以上行政地址的代碼和名稱有明確規定外,其它級別的地址信息由于數量繁多、結構復雜,長期以來按照屬地化管理等原因造成了地名、地址的使用均帶有較重的地方特色,沒有形成統一的地址編碼和命名規范,也就是沒有一個統一的模式可以匹配。另外,由于中文詞語是由字組成的,切分的時候情況就要復雜得多,這也為地址要素識別帶來許多問題。再加上人們在輸入地址時常常省略特征詞,造成名詞邊界的界定困難。而同一個名詞也可能出現在不同地址的不同級別要素中。可見,現有技術并沒有一個有效的方式來對中文地址進行精確的識別。
發明內容
本發明實施例提供一種中文地址識別方法及設備,用以解決現有技術中并沒有一個有效的方式來對中文地址進行精確的識別的問題。
第一方面,本發明實施例提供了一種中文地址識別方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京貝殼時代網絡科技有限公司,未經北京貝殼時代網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910502405.8/2.html,轉載請聲明來源鉆瓜專利網。





