[發明專利]一種基于多層LSTM的遠程監督實體關系聯合抽取方法和系統在審
| 申請號: | 202110406629.6 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN112989833A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 程良倫;馬建文;張偉文 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/36;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 蘇云輝 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層 lstm 遠程 監督 實體 關系 聯合 抽取 方法 系統 | ||
1.一種基于多層LSTM的遠程監督實體關系聯合抽取方法,其特征在于,包括:
以百科三元組為外部知識庫和以海洋經濟產業文本數據的新聞文本作為外部文檔庫,構建遠程監督數據集,其中,遠程監督數據集包括三元組格式的訓練集和測試集;
構建實體關系聯合抽取模型,對實體關系聯合抽取模型的參數進行初始化,其中,實體關系聯合抽取模型包括字符LSTM層、編碼層、實體提取模塊和關系提取模塊;
使用遠程監督數據集對實體關系聯合抽取模型進行訓練,并使用訓練好的實體關系聯合抽取模型進行實體關系聯合抽取。
2.根據權利要求1所述的基于多層LSTM的遠程監督實體關系聯合抽取方法,其特征在于,實體關系聯合抽取模型的初始化參數配置為:
字符LSTM層、編碼層、實體提取模塊和關系提取模塊的隱藏狀態的大小分別為100、400、250和256;
關系提取模塊的頭的數量與關系類型的數量相同,每個頭的大小設置為24;
學習率、學習率衰減和批次大小分別設置為0.001、0.95和64;
隨機失活率設置為0.3。
3.根據權利要求1所述的基于多層LSTM的遠程監督實體關系聯合抽取方法,其特征在于,編碼層使用Bi-on-LSTM提取句子的全局特征,得到詞與詞之間的依存關系。
4.根據權利要求1所述的基于多層LSTM的遠程監督實體關系聯合抽取方法,其特征在于,實體提取模塊在雙向on-LSTM層后采用全連接層來獲得輸入表示序列,使用CRF預測輸出序列的概率。
5.根據權利要求4所述的基于多層LSTM的遠程監督實體關系聯合抽取方法,其特征在于,關系提取模塊采用Bi-LSTM網絡和注意力機制來獲得實體對應關系的概率。
6.一種基于多層LSTM的遠程監督實體關系聯合抽取方法系統,其特征在于,包括:
數據集模塊,用于以百科三元組為外部知識庫和以海洋經濟產業文本數據的新聞文本作為外部文檔庫,構建遠程監督數據集,其中,遠程監督數據集包括三元組格式的訓練集和測試集;
抽取模型模塊,用于構建實體關系聯合抽取模型,對實體關系聯合抽取模型的參數進行初始化,其中,實體關系聯合抽取模型包括字符LSTM層、編碼層、實體提取模塊和關系提取模塊;
訓練模塊,用于使用遠程監督數據集對實體關系聯合抽取模型進行訓練,并使用訓練好的實體關系聯合抽取模型進行實體關系聯合抽取。
7.根據權利要求6所述的基于多層LSTM的遠程監督實體關系聯合抽取系統,其特征在于,實體關系聯合抽取模型的初始化參數配置為:
字符LSTM層、編碼層、實體提取模塊和關系提取模塊的隱藏狀態的大小分別為100、400、250和256;
關系提取模塊的頭的數量與關系類型的數量相同,每個頭的大小設置為24;
學習率、學習率衰減和批次大小分別設置為0.001、0.95和64;
隨機失活率設置為0.3。
8.根據權利要求6所述的基于多層LSTM的遠程監督實體關系聯合抽取系統,其特征在于,編碼層使用Bi-on-LSTM提取句子的全局特征,得到詞與詞之間的依存關系。
9.根據權利要求6所述的基于多層LSTM的遠程監督實體關系聯合抽取系統,其特征在于,實體提取模塊在雙向on-LSTM層后采用全連接層來獲得輸入表示序列,使用CRF預測輸出序列的概率。
10.根據權利要求9所述的基于多層LSTM的遠程監督實體關系聯合抽取方法系統,其特征在于,關系提取模塊采用Bi-LSTM網絡和注意力機制來獲得實體對應關系的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110406629.6/1.html,轉載請聲明來源鉆瓜專利網。





