[發明專利]一種基于Lattice LSTM和語言模型的命名實體識別方法有效
| 申請號: | 201811434481.1 | 申請日: | 2018-11-28 |
| 公開(公告)號: | CN109284400B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 廖偉智;王宇;馬攀;陰艷超 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lattice lstm 語言 模型 命名 實體 識別 方法 | ||
1.一種基于Lattice LSTM和語言模型的命名實體識別方法,其特征在于,包括以下步驟:
A、獲取語言模型的訓練語料數據并進行預處理;
具體包括以下分步驟:
A1、將語言模型的訓練語料數據OrgData轉換為字符級的語料數據NewData;
A2、統計字符級的語料數據NewData中的字符,得到字符集合CharSet,并將每個字符進行編號,得到字符集合對應字符編號集合CharID;
A3、將整個文檔切分為Batch大小個子序列,然后以長度Length切分這些序列,得到m個Batch;
A4、將每一個Batch的字符通過字符編號集合CharID轉換為固定長度的數據BatchData;
A5、刪除文檔的第一個字符,將整個文檔切分為Batch大小個子序列,然后以長度Length切分這些序列,得到m個Batch,并將每一個Batch的字符通過字符編號集合CharID轉換為固定長度的標簽數據PredictData;
B、根據步驟A預處理后的訓練語料數據構建基于LSTM的語言模型;
所述基于LSTM的語言模型包括Embedding層、第一DropOut層、第一單向LSTM層、第二DropOut層、第二單向LSTM層和SoftMax層;
所述步驟B還包括將步驟A4得到的固定長度的數據BatchData和步驟A5得到的固定長度的標簽數據PredictData輸入到基于LSTM的語言模型中,訓練基于LSTM的語言模型的模型參數;
C、獲取命名實體識別模型的訓練語料數據并進行標注,形成標注語料,具體為采用BMESO的標記方式對命名實體識別模型的訓練語料數據進行標注;
D、對步驟C得到標注語料進行預處理;
具體包括以下分步驟:
D1、統計標注語料的字符,得到字符集合CharSet,將每個字符進行編號,得到字符集合對應字符編號集合CharID;統計標注語料的標簽,得到標簽集合LableSet,將每個標簽進行編號,得到標簽集合LableSet對應的標簽編號集合LableID;
D2、以漢語詞典為基礎建立一棵單詞查找樹,將標注語料中的每一句話與單詞查找樹進行匹配,保留匹配成功的詞,得到單詞集合WordSet;
D3、去除單詞集合WordSet中的重復詞得到新的WordSet,并對新的WordSet中的每個詞進行編號,得到新WordSet對應的編號集合WordID;
D4、將標注語料中的每個字符和標簽分別根據CharID和LableID轉換為對應ID,并讓標注語料中的每一句話與單詞查找樹進行匹配,保存每一句話匹配到的詞,并將這些詞根據WordID轉換為對應的ID;
D5、將步驟D4中轉換成ID后的語料隨機排列順序,并采用隨機無放回的方式從標注語料中抽取BatchSize句數據c,以及對應的標簽y和對應的單詞集合w;
E、根據步驟B得到的基于LSTM的語言模型和步驟D預處理后的標注語料構建基于Lattice LSTM和語言模型的命名實體識別模型;
F、利用步驟E得到的基于Lattice LSTM和語言模型的命名實體識別模型對待識別數據進行處理,得到命名實體識別結果。
2.如權利要求1所述的基于Lattice LSTM和語言模型的命名實體識別方法,其特征在于,所述步驟E中,基于Lattice LSTM和語言模型的命名實體識別模型包括Embedding層、第一DropOut層、Lattice LSTM層、拼接層、第二DropOut層、LSTM層和CRF層。
3.如權利要求2所述的基于Lattice LSTM和語言模型的命名實體識別方法,其特征在于,所述基于Lattice LSTM和語言模型的命名實體識別模型中的拼接層將步驟D5中的數據c輸入到基于LSTM的語言模型后的輸出與Lattice LSTM層的輸出進行拼接。
4.如權利要求3所述的基于Lattice LSTM和語言模型的命名實體識別方法,其特征在于,所述步驟F利用步驟E得到的基于Lattice LSTM和語言模型的命名實體識別模型對待識別數據進行處理,得到命名實體識別結果,具體為:
將待識別數據中的每個字符根據字符編號集合CharID轉換為對應ID,并將預測數據中的每一句話與單詞查找樹進行匹配,保存每一句話匹配到的詞,并將這些詞根據WordID轉換為對應的ID;然后將轉換后的ID輸入到基于Lattice LSTM和語言模型的命名實體識別模型中,并采用維特比算法求出每句話最大可能的標注序列,將其作為命名實體識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811434481.1/1.html,轉載請聲明來源鉆瓜專利網。





