[發明專利]一種針對突發事件的事件知識圖譜構建方法有效
| 申請號: | 202110467741.0 | 申請日: | 2021-04-28 |
| 公開(公告)號: | CN113312490B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 孫銳;謝紅 | 申請(專利權)人: | 樂山師范學院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30 |
| 代理公司: | 西安銘澤知識產權代理事務所(普通合伙) 61223 | 代理人: | 張舉 |
| 地址: | 614000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 突發事件 事件 知識 圖譜 構建 方法 | ||
1.一種針對突發事件的事件知識圖譜構建方法,其特征在于,包括以下步驟:
步驟1、收集突發事件新聞文檔,對突發事件新聞文檔進行數據預處理操作,得到新聞數據集D;
步驟2、將預處理后的新聞數據集D加入背景語料,預訓練后得到詞的分布式表示,即詞的Embedding;
步驟3、對新聞數據集D中的每篇新聞,以語句為單位采用深度學習的序列標注方法進行事件抽取,所對應的事件采用主謂賓結構的三元組原子事件表示;
所述步驟3具體包括:
步驟31、令語句對應的詞序列作為輸入序列,表示為x={w1,w2,...,wn},以預訓練后得到的Embedding作為詞的輸入向量wi,令詞序列對應的預測標簽集合為ye={ye1,ye2,...,yen},標簽可選集合為{O,BSub,ISub,BPre,IPre,BObj,IObj},分別表示非事件主謂賓、事件主語開始詞、事件主語非開始詞、事件謂語開始詞、事件謂語非開始詞、事件賓語開始詞、事件賓語非開始詞;
步驟32、經過神經網絡隱層的訓練提取句子特征,得到每個詞對應位置i上的網絡隱層輸出pi;
步驟33、在輸入層,綜合考慮隱層輸出pi和標簽轉移概率預測輸出每個詞對應位置i上的標簽yei,其預測概率為
步驟34、語句對應的整個詞序列的最后得分為序列所有位置得分之和,即:
對此得分進行Softmax歸一化后,模型目標函數表示為即優化得到語句對應詞序列的最優標簽預測序列;
步驟35、對語句按上述模型優化后的結果進行解碼,連續標簽{BSub,ISub,…}對應的詞序列為原子事件主語,連續標簽{BPre,IPre,…}對應的詞序列為原子事件謂語,連續標簽{BObj,IObj,…}對應的詞序列為原子事件賓語,標簽O對應的詞則為非原子事件主謂賓,從語句的第一個詞依次往后掃描,連續的主謂賓合并得到一個三元組原子事件;
步驟4、根據事件模板的分布特點,針對事件表現形式多樣化的問題,采用Bootstrapping方法進行三元組原子事件的規范化,修正不規范事件的形態,得到規范化原子事件;
步驟5、對出現在同一語句中的規范化原子事件對,采用基于深度學習的算法學習其上下文特征,判別規范化原子事件對間的時序關系;
步驟6、基于規范化原子事件和規范化原子事件對間的時序關系構建事件知識圖譜,以規范化原子事件為結點,規范化原子事件對的時序關系為邊,得到最后的事件知識圖譜。
2.根據權利要求1所述的針對突發事件的事件知識圖譜構建方法,其特征在于,所述步驟1對突發事件新聞文檔進行數據預處理操作具體包括:利用現有的自然語言處理工具包,完成新聞語料清洗,并對每篇文檔進行預處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于樂山師范學院,未經樂山師范學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110467741.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種精品鋼材制備用冷凝水回收系統
- 下一篇:橡膠紡織輪膠料及制備方法和應用





