[發明專利]融合字詞特征與深度學習的事件聯合抽取方法有效
| 申請號: | 202110380536.0 | 申請日: | 2021-04-09 |
| 公開(公告)號: | CN113190602B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 強保華;陳鵬;王玉峰;彭博;李寶蓮;陳金勇 | 申請(專利權)人: | 桂林電子科技大學;中國電子科技集團公司第五十四研究所 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 桂林文必達專利代理事務所(特殊普通合伙) 45134 | 代理人: | 白洪 |
| 地址: | 541004 廣西*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 融合 字詞 特征 深度 學習 事件 聯合 抽取 方法 | ||
1.融合字詞特征與深度學習的事件聯合抽取方法,其特征在于,包括以下步驟:
(1)對文本進行預處理:對文本采取BIO的標注方式,把事件類型和事件元素當作一個聯合標簽進行標注,通過從左往右和從右往左二種序列標注方法進行標注,把二個標注結果求并集當作最終標注結果;將最終標注結果文本以一個字符為單位,分割為字符集合;將待處理的文本利用jieba開源中文分詞工具將句子分詞,生成詞匯集合;
(2)對MacBERT的絕對位置編碼進行延拓:假設已經訓練好的絕對位置編碼向量為p1,p2,…,pn,延拓后的編碼向量為q1,q2,…,qm,其中m>n;通過延拓公式q(i-1)n+j=αui+(1-α)uj進行延拓,其中超參數α∈(0,1),u1,u2,…,un是絕對位置編碼的“基底”,i是“基底”的編號,i∈(1,n),j是每個“基底”的絕對位置編碼編號,j∈(1,n),把i,j對應的位置編碼αui和(1-α)uj疊加表示位置(i-1)n+j的位置編碼,達到從n個位置編碼延拓到m個的效果;
(3)對于字符集合,針對“預訓練與微調階段MASK差異”問題,使用延拓后MacBERT模型預訓練的字向量,提高向量表示的精準性,通過MacBERT的詞匯表建立分詞器,將待處理文本以一個字符為單位,根據固定的文本最大長度對文本進行截斷或者補0,得到字符向量序列;對于詞匯集合,給定輸入句子序列,將輸入以分詞為單位,經過Word2Vec的skip-gram模型訓練后生成詞向量序列,同時,詞語對應的字符通過卷積神經網絡CNN生成詞語對應的字符向量序列,將二個序列疊加,得到一個字詞綜合向量序列;
(4)將文本的字符向量序列進行編碼,生成字符隱狀態向量;對字詞綜合向量序列進行編碼,字詞綜合向量序列輸入到一個獨立的循環神經網絡,捕獲全局特征,生成字詞綜合隱狀態向量;
(5)將字符隱狀態向量、字詞綜合隱狀態向量進行合并,得到全局特征隱狀態向量;
(6)在全局特征隱狀態向量里面加入擾動,使得模型在預測的時候受到干擾,提高模型泛化性,加入擾動使用梯度上升的方式,具體做法為其中Δx是對抗擾動,x是輸入,y是標簽,θ是模型參數,L(x,y;θ)是單個樣本的loss,sign函數是防止擾動過大對做標準化處理,將全局特征隱狀態向量輸入到基于梯度上升的對抗神經網絡層進行擾動,得到擾動后字詞特征隱狀態向量;
(7)把所述擾動后字詞特征隱狀態向量輸入至條件隨機場CRF進行標簽預測,正則化計算給定句子序列標記為標簽序列的得分,并且在條件隨機場中使用維特比算法進行訓練,計算出最高概率的事件標簽序列。
2.根據權利要求1所述的事件聯合抽取方法,其特征在于,所述方法還包括如下步驟:
(1)將字符向量序列作為輸入序列輸入到雙向長短期記憶神經網絡BiLSTM中,提取文本上下文特征信息,使用激活函數Tanh緩解梯度消失問題,提高雙向長短期記憶神經網絡編碼精準性,由字符向量序列經過BiLSTM生成字符隱狀態向量;
(2)將輸入以分詞為單位,經過Word2Vec的skip-gram模型訓練后生成詞向量序列,同時,詞語對應的字符通過卷積神經網絡CNN生成詞語對應的字符向量序列,將二個序列疊加,得到一個字詞綜合向量序列,把所述文本的字詞綜合向量序列作為輸入序列輸入到雙向長短期記憶神經網絡BiLSTM中,提取文本信息,學習詞語和詞語對應字符之間的語義關系,生成字詞綜合隱狀態向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于桂林電子科技大學;中國電子科技集團公司第五十四研究所,未經桂林電子科技大學;中國電子科技集團公司第五十四研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110380536.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分選機
- 下一篇:一種新型的細菌裂解的方法





