[發明專利]一種地址要素解析方法和系統在審

申請號：	202211034540.2	申請日：	2022-08-26
公開（公告）號：	CN115481635A	公開（公告）日：	2022-12-16
發明（設計）人：	鄭鴻敏;張劍;潘曉衡	申請（專利權）人：	東莞理工學院
主分類號：	G06F40/295	分類號：	G06F40/295;G06F16/35;G06F16/951
代理公司：	東莞恒成知識產權代理事務所(普通合伙) 44412	代理人：	姚偉旗
地址：	523808 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種地址要素解析方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及地址信息處理技術領域，且公開了一種地址要素解析方法和系統，其中一種地址要素解析方法，包括：S1、訓練得到地址信息要素抽取模型；S2、對用戶輸入的地址信息進行命名實體識別，用訓練好的模型提取所需信息元，即，地址信息要素標簽；S3、儲存所提取出的地址信息要素標簽；S4、將地址信息要素標簽以結構化的方式呈現給用戶。該地址要素解析方法，通過引入特征提取器BILSTM和條件隨機場CRF，充分考慮到了地址要素上下文之間的相關性，讓地址要素提取模型基于文本上下關系，且能夠自動學習相關約束，從而增強了特征表達，提高了地址要素解析的效果。

技術領域

本發明涉及地址信息處理技術領域，具體為一種地址要素解析方法和系統。

背景技術

地址是日常生活中一種重要的文本信息，生活中諸多場景需要登記地址，如電商購物、外賣配送、人口普查、水電氣開戶等。面對海量的地址數據，如何準確提取地址要素，成為了中文地址處理的核心任務。面對這一挑戰，人們提出了地址要素解析技術，借助智能化地址要素解析技術得到準確的地址信息要素。

地址文本相關性任務在現實世界中存在著廣泛的應用場景，如：基于地理信息搜索的地理位置服務、對于突發事件位置信息的快速搜索定位、不同地址信息系統的對齊等；而地址要素解析是將地址文本拆分成獨立語義的要素，并對這些要素進行類型識別的過程。目前，針對地址文本內容要素的拆分，主要利用命名實體識別的方式處理地址數據。

傳統地址解析系統多基于詞典匹配來提高準確度，然而，由于我國的地址系統復雜，地址信息種類繁多，用詞典全部攬括需要相當大的人力，所以一般的識別系統基于大量的已知數據，只能細分到區或者街道。

在實際應用中，地址文本存在寫法自由、缺省別名多、地域性強等特點，對地址的解析、歸一和匹配等都造成困難，具體表現有，對于同一個地址存在多種寫法，沒有給定的改寫詞表、不同地市地址規范不一且存在省市區等限制條件；對于現有的很多模型來說，當地址出現缺省以及口語化等不規范表述時，容易導致要素提取錯誤。

發明內容

本發明提供了一種地址要素解析方法和系統，將命名實體識別模型應用到地址解析領域；通過提取地址信息的特征，通過上下文之間的約束，對地址要素進行預測，從而達到解析地址的效果，促進解決了上述背景技術中所提到的問題。

本發明提供如下技術方案：一種地址要素解析方法，所述地址要素解析方法包括：

S1、訓練模型，地址信息要素抽取模型；

S2、對用戶輸入的地址信息進行命名實體識別，用訓練好的模型提取所需信息元，即，地址信息要素標簽；

S3、儲存所提取出的地址信息要素標簽；

S4、將地址信息要素標簽以結構化的方式呈現給用戶。

作為本發明所述地址要素解析方法的一種可選方案，其中：所述S1的訓練模型步驟具體包括：

S11、通過網絡爬蟲技術爬取數據，并存儲到第一數據庫中；

S12、對第一數據庫中的數據集進行預處理；