[發明專利]非結構化文本事件抽取方法有效
| 申請號: | 202110934216.5 | 申請日: | 2021-08-16 |
| 公開(公告)號: | CN113407660B | 公開(公告)日: | 2021-12-14 |
| 發明(設計)人: | 陶建華;吳家帆;張大偉;楊國花;劉通 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/335;G06F16/35;G06F40/14;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 李永葉 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結構 文本 事件 抽取 方法 | ||
1.非結構化文本事件抽取方法,其特征在于,所述方法包括:
觸發詞分類階段
S1:非結構化文本數據預處理,再對數據預處理后的非結構化文本進行文本的切分與分詞,得到切分后的文本片段,再將文本片段進一步分割成單個詞片段;
S2:通過查表的方式將分割好的單個詞片段,轉化成空間向量表示的詞向量表示;實體類型編碼向量、詞性標簽編碼向量和位置標簽編碼向量是根據確定的維度隨機初始化得到的;
實體類型編碼向量、詞性標簽編碼向量和位置標簽編碼向量的每個元素是隨機值;
S3:將所述詞向量表示、實體類型編碼向量、詞性標簽編碼向量和位置標簽編碼向量,按每個詞的維度方向進行拼接,得到文本句子的原始特征表示;
S4:將所述原始特征表示輸入文本特征提取網絡,得到文本的深度特征表示;
S5:將所述深度特征表示輸入多階圖注意力卷積網絡,得到多階句法的特征表示向量;
S6:應用注意力機制聚合所述多階句法的特征表示向量,得到聚合多階特征;
S7:應用一個全連接層網絡對所述聚合多階特征進行分類,得到當前詞片段屬于每種事件類別的概率值;
事件論元角色分類階段
S8:將句子的詞級別序列的聚合多階特征拼接成隱層嵌入向量;
S9:應用動態多池化層作為特征聚合器,將所述隱層嵌入向量聚合,得到實例嵌入;
S10:對于特定的上位概念,使用可訓練的上位概念向量表示其語義特征;采用了多層感知機來計算注意力分值;
S11:定義一個元素角色的k個上位概念,應用步驟S10計算k個上位概念的注意力分值,再計算k個上位概念的注意力分值的均值,得到面向角色的注意力分值;以所述面向角色的注意力分值作為權重,對隱層嵌入向量中所有隱層嵌入進行加權求和,得到面向角色的嵌入;
S12:將所述實例嵌入和面向角色的嵌入作為分類器的輸入,估計給定實例嵌入的條件下,元素角色的概率。
2.根據權利要求1所述的非結構化文本事件抽取方法,其特征在于,所述文本特征提取網絡采用雙向長短時間記憶網絡構建。
3.根據權利要求1所述的非結構化文本事件抽取方法,其特征在于,所述多階句法的特征表示向量的具體計算方法為:
根據句法依存樹路徑的鄰接矩陣A可以表示成第一階句法圖;鄰接矩陣A可以得到其三個變換矩陣,分別是Aalong、Arev和Aloop;如果詞片段wi和wj之間存在句法連接弧,那么Aalong(i,j)=1, 否則為0;而逆轉矩陣Arev=ATalong,Aloop是單位矩陣;k階鄰接矩陣Aksubg的三個變換矩陣分別表示為A kalong、 Akrev和A k loop;將所述深度特征表示和所述k階鄰接矩陣Aksubg輸入圖注意力卷積網絡,得到多階句法的特征表示向量
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110934216.5/1.html,轉載請聲明來源鉆瓜專利網。





