[發明專利]一種融合句式信息的地址要素識別方法在審
| 申請號: | 202210298091.6 | 申請日: | 2022-03-24 |
| 公開(公告)號: | CN115048931A | 公開(公告)日: | 2022-09-13 |
| 發明(設計)人: | 張宇 | 申請(專利權)人: | 武漢眾智數字技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 吳靜 |
| 地址: | 430074 湖北省武*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 句式 信息 地址 要素 識別 方法 | ||
1.一種融合句式信息的地址要素識別方法,其特征在于,包括:
S100.獲取待識別地址文本的地址片段序列和句式模式;
S200.將地址片段序列中的每個地址片段和地址的句式模式輸入到特征表示層,得到地址片段序列的特征向量序列;其中,地址片段表示和地址句式表示,作為地址要素識別模型的參數,通過模型訓練得到;
S300.將地址片段序列的特征向量序列輸入到地址要素識別模型進行編碼解碼,得到地址片段序列的標簽序列;
S400.將地址片段序列的標簽序列輸入到地址要素后處理模塊,得到地址要素的識別結果。
2.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S100中,獲取待識別地址文本的地址片段序列方法包括:從待識別的地址文本抽取出預定義的地址要素;這些預定義的地址要素包括:省、市、區、街道、居委會、道路、門牌號、興趣點、樓棟、單元和樓層號。
3.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S100中,獲取待識別地址文本的句式模式方法為:地址文本的句式模式通過匹配字典樹得到的地址要素標簽合并得到,在整個地址匹配完成之后,得到其句式模式為“行政區|興趣點|樓棟”。
4.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S200中,特征表示層的特征融合,至少包括直接將各種特征拼接或拼接后采用全連接層映射。
5.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S300中,地址要素識別模型的編碼層,至少包括于雙向長短期記憶網絡和BERT。
6.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S300中,地址要素識別模型的解碼層,至少包括條件隨機場和指針網絡。
7.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S300中,地址要素識別模型的訓練的方法為:采用隨機梯度下降算法最小化損失函數對標注數據訓練得到;地址要素識別模型的解碼器采用Softmax,采用交叉熵作為誤差函數。
8.如權利要求1所述的一種融合句式信息的地址要素識別方法,其特征在于,S300中,地址要素識別模型訓練的損失函數如下:
其中,n表示一個地址文本被切分之后的序列長度,k表示地址要素的標簽個數,yi,j表示地址片段的真實標簽,表示通過模型預測的地址片段的概率分布;損失函數實際上是對地址片段序列中的每個片段計算交叉熵,然后對整個序列的交叉熵求平均得到整個地址文本的損失值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢眾智數字技術有限公司,未經武漢眾智數字技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210298091.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





