[發明專利]一種地址要素解析方法和系統在審
| 申請號: | 202211034540.2 | 申請日: | 2022-08-26 |
| 公開(公告)號: | CN115481635A | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 鄭鴻敏;張劍;潘曉衡 | 申請(專利權)人: | 東莞理工學院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/951 |
| 代理公司: | 東莞恒成知識產權代理事務所(普通合伙) 44412 | 代理人: | 姚偉旗 |
| 地址: | 523808 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 地址 要素 解析 方法 系統 | ||
1.一種地址要素解析方法,其特征在于,所述地址要素解析方法包括:
S1、訓練模型,訓練出地址信息要素抽取模型;
S2、對用戶輸入的地址信息進行命名實體識別,用訓練好的模型提取所需信息元,即,地址信息要素標簽;
S3、儲存所提取出的地址信息要素標簽;
S4、將地址信息要素標簽以結構化的方式呈現給用戶。
2.根據權利要求1所述的地址要素解析方法,其特征在于,所述S1的訓練模型步驟具體包括:
S11、通過網絡爬蟲技術爬取數據,并存儲到第一數據庫中;
S12、對第一數據庫中的數據集進行預處理;
S13、通過特征提取層提取文本特征,得到序列的特征表征;
S14、通過最優化輸出層得到最優模型參數,保存最終的地址信息要素抽取模型。
3.根據權利要求1所述的地址要素解析方法,其特征在于,所述S2具體包括:
S21、將用戶輸入地址中的每一個詞,構建一個向量用于表示詞的意思以及特征,將由詞轉化而成的詞向量通過編碼被計算機所識別和處理;
S22、依據用戶地址的詞向量,通過模型預測出NER標注序列,解碼并輸出每個字的序列,即得到信息要素。
4.根據權利要求2或3所述的地址要素解析方法,其特征在于,所述S12的預處理步驟包括:
S121、對數據集進行劃分,其中一部分用來訓練,另一部分用來檢驗模型效果;
S122、處理地址信息要素標簽,構建一個包含所有地址信息要素標簽的id表,將地址元素地址信息要素標簽轉化為跟文本一樣大小的k維地址信息要素標簽映射序列;
S123、對劃分后的地址數據集進行詞向量化,得到該地址的詞向量序列,作為模型的輸入。
5.根據權利要求4所述的地址要素解析方法,其特征在于,所述S13步驟包括:
將詞向量序列(x1,x2,...,xn)作為特征提取層各個時間步的輸入,再將正向LSTM輸出的隱狀態序列(h1→,h2→,...,hn→)與反向LSTM輸出的隱狀態序列(h1←,h2←,...,hn←)在各個位置輸出的隱狀態進行按位置拼接ht=[ht→;ht←]∈Rm,得到完整的隱狀態序列(h1,h2,...,hn)∈Rn×m;
利用線性關系將隱狀態向量從m維映射到k維,k是標注集的地址信息要素標簽數,從而得到自動提取的句子特征,記作矩陣P=(p1,p2,...,pn)∈Rn×k,其中,pi的每一維pij都視作將字i分類到第j個地址信息要素標簽的打分值,即這個字對于每個地址信息要素標簽的概率值;
特征提取層的輸出即為得到的評分矩陣P。
6.根據權利要求5所述的地址要素解析方法,其特征在于,所述S14步驟中:
以(k+2)×(k+2)的轉移矩陣A作為最優化輸出層的參數,其中,Aij表示為從第i個地址信息要素標簽到第j個地址信息要素標簽的轉移得分;
整個序列的打分等于各個位置的打分之和,每個位置的打分由矩陣P和矩陣A決定;
具體為:
記一個長度等于句子長度的地址信息要素標簽序列y=(y1,y2,...,yn),則句子x的地址信息要素標簽等于y的得分為:
句子x的地址信息要素標簽等于y的得分隨著訓練的迭代次數的增加,更新轉移矩陣的參數值,得到模型參數,保存最終的地址要素抽取模型。
7.根據權利要求6所述的地址要素解析方法,其特征在于,所述S22步驟還包括:
通過用戶地址的向量序列,根據轉移矩陣的參數進行維特比解碼,得到預測序列標注值,輸出每個字對應的地址信息要素標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東莞理工學院,未經東莞理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211034540.2/1.html,轉載請聲明來源鉆瓜專利網。





