[發明專利]一種融合句式信息的地址要素識別方法在審
| 申請號: | 202210298091.6 | 申請日: | 2022-03-24 |
| 公開(公告)號: | CN115048931A | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 張宇 | 申請(專利權)人: | 武漢眾智數字技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 吳靜 |
| 地址: | 430074 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 句式 信息 地址 要素 識別 方法 | ||
一種融合句式信息的地址要素識別方法,包括:獲取待識別地址文本的地址片段序列和句式模式;將地址片段序列中的每個地址片段和地址的句式模式輸入到特征表示層,得到地址片段序列的特征向量序列;將地址片段序列的特征向量序列輸入到地址要素識別模型進行編碼解碼,得到地址片段序列的標簽序列;將地址片段序列的標簽序列輸入到地址要素后處理模塊,得到地址要素的識別結果。本發明通過獲取地址的句式信息以及對句式信息進行建模,來提高地址要素識別的準確性。
技術領域
本發明涉及的是信息識別領域,特別涉及一種融合句式信息的地址要素識別方法。
背景技術
在公共安全行業中,地址是一種重要的行業要素。地址數據一般以非結構化的形式存在,這給我們有效的利用地址中包含的細粒度信息帶來了挑戰。同時,我們通常會采用地址將業務數據進行關聯,而地址要素識別作為進行地址關聯的重要環節對后續的地址標準化、地址相關性計算等任務起著至關重要的作用。因此,我們需要進行地址要素識別,即正確識別地址文本中要素的邊界并預測要素的類別。
目前地址要素識別常常被轉換成命名實體識別的問題。因此,所有命名實體識別的技術方案都適用于地址要素識別。與此同時,地址也有其自身的一些特點,比如:上下文信息缺失。因此,現有專利CN201810627403.7中通過引入領域信息、屬性信息和結構信息來提升準確性。CN202011211412.1通過引入基礎信息、地址詞的標識信息和字的特征信息來提升準確性。上述方法一定程度上改善了地址要素識別的準確性,但忽略了地址往往具有一些特定的句式特點。這種句式的具體表現形式為:“省份|城市|行政區|道路名|興趣點”。直觀的來看,如果一個地址中出現了“省份”和“行政區”兩種地址要素,那么它們之間的文本片段大概率為“城市”類別。因此,如何獲取地址的句式信息以及如何對句式信息進行建模來提高地址要素識別的準確性成為了亟待解決的問題。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種融合句式信息的地址要素識別方法。
為了解決上述技術問題,本申請實施例公開了如下技術方案:
一種融合句式信息的地址要素識別方法,包括:
S100.獲取待識別地址文本的地址片段序列和句式模式;
S200.將地址片段序列中的每個地址片段和地址的句式模式輸入到特征表示層,得到地址片段序列的特征向量序列;其中,地址片段表示和地址句式表示,作為地址要素識別模型的參數,通過模型訓練得到。
S300.將地址片段序列的特征向量序列輸入到地址要素識別模型進行編碼解碼,得到地址片段序列的標簽序列;
S400.將地址片段序列的標簽序列輸入到地址要素后處理模塊,得到地址要素的識別結果。
進一步地,S100中,獲取待識別地址文本的地址片段序列方法包括:從待識別的地址文本抽取出預定義的地址要素;這些預定義的地址要素包括:省、市、區、街道、居委會、道路、門牌號、興趣點、樓棟、單元和樓層號。
進一步地,S100中,獲取待識別地址文本的句式模式方法為:地址文本的句式模式通過匹配字典樹得到的地址要素標簽合并得到,在整個地址匹配完成之后,得到其句式模式為“行政區|興趣點|樓棟”。
進一步地,S200中,特征表示層的特征融合,至少包括直接將各種特征拼接或拼接后采用全連接層映射。
進一步地,S300中,地址要素識別模型的編碼層,至少包括于雙向長短期記憶網絡和BERT。
進一步地,S300中,地址要素識別模型的解碼層,至少包括條件隨機場和指針網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢眾智數字技術有限公司,未經武漢眾智數字技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210298091.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





