[發明專利]一種地址要素解析方法和系統在審
| 申請號: | 202211034540.2 | 申請日: | 2022-08-26 |
| 公開(公告)號: | CN115481635A | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 鄭鴻敏;張劍;潘曉衡 | 申請(專利權)人: | 東莞理工學院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/951 |
| 代理公司: | 東莞恒成知識產權代理事務所(普通合伙) 44412 | 代理人: | 姚偉旗 |
| 地址: | 523808 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 地址 要素 解析 方法 系統 | ||
本發明涉及地址信息處理技術領域,且公開了一種地址要素解析方法和系統,其中一種地址要素解析方法,包括:S1、訓練得到地址信息要素抽取模型;S2、對用戶輸入的地址信息進行命名實體識別,用訓練好的模型提取所需信息元,即,地址信息要素標簽;S3、儲存所提取出的地址信息要素標簽;S4、將地址信息要素標簽以結構化的方式呈現給用戶。該地址要素解析方法,通過引入特征提取器BILSTM和條件隨機場CRF,充分考慮到了地址要素上下文之間的相關性,讓地址要素提取模型基于文本上下關系,且能夠自動學習相關約束,從而增強了特征表達,提高了地址要素解析的效果。
技術領域
本發明涉及地址信息處理技術領域,具體為一種地址要素解析方法和系統。
背景技術
地址是日常生活中一種重要的文本信息,生活中諸多場景需要登記地址,如電商購物、外賣配送、人口普查、水電氣開戶等。面對海量的地址數據,如何準確提取地址要素,成為了中文地址處理的核心任務。面對這一挑戰,人們提出了地址要素解析技術,借助智能化地址要素解析技術得到準確的地址信息要素。
地址文本相關性任務在現實世界中存在著廣泛的應用場景,如:基于地理信息搜索的地理位置服務、對于突發事件位置信息的快速搜索定位、不同地址信息系統的對齊等;而地址要素解析是將地址文本拆分成獨立語義的要素,并對這些要素進行類型識別的過程。目前,針對地址文本內容要素的拆分,主要利用命名實體識別的方式處理地址數據。
傳統地址解析系統多基于詞典匹配來提高準確度,然而,由于我國的地址系統復雜,地址信息種類繁多,用詞典全部攬括需要相當大的人力,所以一般的識別系統基于大量的已知數據,只能細分到區或者街道。
在實際應用中,地址文本存在寫法自由、缺省別名多、地域性強等特點,對地址的解析、歸一和匹配等都造成困難,具體表現有,對于同一個地址存在多種寫法,沒有給定的改寫詞表、不同地市地址規范不一且存在省市區等限制條件;對于現有的很多模型來說,當地址出現缺省以及口語化等不規范表述時,容易導致要素提取錯誤。
發明內容
本發明提供了一種地址要素解析方法和系統,將命名實體識別模型應用到地址解析領域;通過提取地址信息的特征,通過上下文之間的約束,對地址要素進行預測,從而達到解析地址的效果,促進解決了上述背景技術中所提到的問題。
本發明提供如下技術方案:一種地址要素解析方法,所述地址要素解析方法包括:
S1、訓練模型,地址信息要素抽取模型;
S2、對用戶輸入的地址信息進行命名實體識別,用訓練好的模型提取所需信息元,即,地址信息要素標簽;
S3、儲存所提取出的地址信息要素標簽;
S4、將地址信息要素標簽以結構化的方式呈現給用戶。
作為本發明所述地址要素解析方法的一種可選方案,其中:所述S1的訓練模型步驟具體包括:
S11、通過網絡爬蟲技術爬取數據,并存儲到第一數據庫中;
S12、對第一數據庫中的數據集進行預處理;
S13、通過特征提取層提取文本特征,得到序列的特征表征;
S14、通過最優化輸出層得到最優模型參數,保存最終的地址信息要素抽取模型。
作為本發明所述地址要素解析方法的一種可選方案,其中:所述S2具體包括:
S21、將用戶輸入地址中的每一個詞,構建一個向量用于表示詞的意思以及特征,將由詞轉化而成的詞向量通過編碼被計算機所識別和處理;
S22、依據用戶地址的詞向量,通過模型預測出NER標注序列,解碼并輸出每個字的序列,即得到信息要素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東莞理工學院,未經東莞理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211034540.2/2.html,轉載請聲明來源鉆瓜專利網。





