[發明專利]實體特征的字符嵌入及混合LSTM實體識別方法、系統及介質有效
| 申請號: | 202010413875.X | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111476022B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 趙強利 | 申請(專利權)人: | 湖南工商大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06N3/0442;G06N3/0464;G06N3/084 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410205 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 特征 字符 嵌入 混合 lstm 識別 方法 系統 介質 | ||
1.一種混合LSTM實體識別方法,其特征在于實施步驟包括:
S1)初始化已識別的單詞數目number?的值為0;
S2)從待識別文檔的起始位置開始,取出其中第number個單詞作為當前單詞;
S3)利用已訓練好的混合LSTM模型對當前單詞進行實體識別:首先采用實體特征的字符嵌入方法,將當前單詞的拼寫字符串看作拼寫字符序列,其各個拼寫字符的嵌入向量作為實體識別混合LSTM模型中單詞拼寫的字符級LSTM的輸入,輸出Vec1;然后將當前單詞的特征字符串看作特征字符序列,其各個特征字符的嵌入向量作為實體識別混合LSTM模型中單詞特征的字符級LSTM的輸入,得到輸出Vec2;最后將向量Vec1和Vec2進行拼接,作為實體識別LSTM的輸入,獲得當前單詞的實體識別IOB結果;所述實體識別混合LSTM模型包括兩個字符級雙向LSTM和一個詞級實體識別雙向LSTM,所述兩個字符級雙向LSTM包括單詞拼寫的字符級LSTM、單詞特征的字符級LSTM,所述單詞拼寫的字符級LSTM用于捕獲單詞的拼寫特征、單詞特征的字符級LSTM用于捕獲單詞的結構特征,兩個字符級雙向LSTM的輸出向量拼接在一起,作為實體識別LSTM的輸入,實體識別LSTM的輸出即為單詞的實體識別IOB結果,所述IOB結果的I表示該單詞是實體描述的一個內部單詞;O表示該單詞不是實體的一部分;B表示該單詞是一個實體的起始單詞;
S4)如果已處理完待識別文檔的所有單詞,則實體識別過程結束;否則將已識別的單詞數目number的值在原值的基礎上加1,跳轉執行步驟S2);
所述實體特征的字符嵌入方法包括:1)利用分詞工具對所有待處理文檔進行分詞,根據分詞結果得到單詞構成的拼寫字符串列表SList;2)將拼寫字符串列表SList中的每個單詞轉化為其對應的特征字符串,得到特征字符串列表FList;3)獲取拼寫字符串列表SList中各個拼寫字符的嵌入向量;4)獲取特征串列表FList中各個特征字符的嵌入向量。
2.根據權利要求1所述的混合LSTM實體識別方法,其特征在于,步驟2)中將拼寫字符串列表SList中的每個字符串轉化為其對應的特征字符串得到特征字符串列表FList的詳細步驟包括:針對拼寫字符串列表SList中的每個單詞,將該單詞中每個大寫字母用A代替、將該單詞中的每個小寫字母用a代替、將該單詞中的每個數字用0代替、將該單詞中的除字母和數字外的每個其他字符用X代替,從而得到該單詞對應的特征字符串,最終得到由所有特征字符串構成的特征字符串列表FList。
3.根據權利要求1所述的混合LSTM實體識別方法,其特征在于,步驟3)中獲取拼寫字符串列表SList中各個拼寫字符的嵌入向量的詳細步驟包括:將拼寫字符串列表SList作為word2vec工具的輸入獲得拼寫字符串列表SList中各個拼寫字符的嵌入向量,且word2vec工具的參數為:采用skip-gram算法、窗口大小為10,分類模型為softmax。
4.根據權利要求1所述的混合LSTM實體識別方法,其特征在于,步驟4)中獲取特征字符串列表FList中各個特征字符的嵌入向量的詳細步驟包括:將特征字符串列表FList作為word2vec工具的輸入獲得特征字符串列表FList中各個特征字符的嵌入向量,且word2vec工具的參數為:采用skip-gram算法、窗口大小為10、分類模型為softmax。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南工商大學,未經湖南工商大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010413875.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:復合材料及其制備方法、納米藥物、應用
- 下一篇:冰箱





