[發明專利]事件提取模型生成方法和裝置、文本事件提取方法和裝置在審
| 申請號: | 202010988657.9 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112116075A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 紀長進;許光鋒;鄭漢軍;劉樹鋒;宋琦;周劍宇 | 申請(專利權)人: | 廈門安勝網絡科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F16/35;G06F40/289;G06K9/62 |
| 代理公司: | 廈門福貝知識產權代理事務所(普通合伙) 35235 | 代理人: | 陳遠洋 |
| 地址: | 361008 福建省廈門市集美*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 提取 模型 生成 方法 裝置 文本 | ||
本申請實施例公開了事件提取模型生成方法和裝置、文本事件提取方法和裝置。該事件提取模型生成方法的一具體實施方式包括:獲取訓練樣本集合;對訓練樣本集合中的訓練樣本包括的樣本文本進行分詞,得到樣本文本對應的樣本詞語序列;將樣本詞語序列輸入初始模型包括的編碼模塊,得到編碼序列;將編碼序列作為初始模型的輸入,將輸入的編碼序列對應的標注觸發詞、標注事件論元和標注論元角色分別作為初始模型包括的觸發詞識別模塊、論元識別模塊和論元角色分類模塊的期望輸出,對初始模型進行訓練,得到事件提取模型。該實施方式采用分任務共享網絡結構實現了端到端識別,提高了事件提取的準確性和效率。
技術領域
本申請實施例涉及計算機技術領域,具體涉及事件提取模型生成方法和裝置、文本事件提取方法和裝置。
背景技術
事件是一種重要的信息表示形式,是發生在某個特定的時間點或時間段、某個特定的地域范圍內,由一個或者多個角色參與的一個或多個動作組成的事情或狀態改變。事件抽取技術是從自然敘述文本中提取事件要素并將其以結構化形式呈現。事件抽取的主要研究方法有模式匹配和機器學習兩大類。模式匹配方法是在一些模式的指導下進行事件的識別和抽取。機器學習的方法識別事件,是借鑒文本分類的思想,將事件類別及事件元素的識別轉化成為分類問題,其核心在于分類器的構造和特征的選擇。
模式匹配在特定領域內能取得較高的性能,但移植性較差。機器學習與領域無關,無需太多領域專家的指導,系統移植性較好。隨著相關語料庫的建設和互聯網上各種文本資源的不斷豐富,語料的獲取越來越方便。目前,機器學習已成為事件抽取的主流研究方法。但是目前的研究方法還是主要集中于英文數據集,對于中文數據的構建與抽取方法研究較少,而且大部分事件抽取研究是基于已知實體后對事件角色的判斷,還有很多是基于流水線的方法對于性能的影響很大。
發明內容
本申請實施例的目的在于提出了一種改進的事件提取模型生成方法和裝置、文本事件提取方法和裝置,來解決以上背景技術部分提到的技術問題。
第一方面,本申請實施例提供了一種事件提取模型生成方法,該方法包括:獲取訓練樣本集合,其中,訓練樣本集合中的訓練樣本包括樣本文本和對應的標注觸發詞、標注事件論元、每個標注事件論元對應的標注論元角色;對訓練樣本集合中的訓練樣本包括的樣本文本進行分詞,得到樣本文本對應的樣本詞語序列;將樣本詞語序列輸入初始模型包括的編碼模塊,得到編碼序列;將編碼序列作為初始模型的輸入,將輸入的編碼序列對應的標注觸發詞、標注事件論元和標注論元角色分別作為初始模型包括的觸發詞識別模塊、論元識別模塊和論元角色分類模塊的期望輸出,對初始模型進行訓練,得到事件提取模型。
在一些實施例中,對初始模型進行訓練,包括:確定觸發詞識別模塊、論元識別模塊和論元角色分類模塊分別對應的觸發詞損失、事件論元損失和論元角色損失;基于觸發詞損失、事件論元損失和論元角色損失,對初始模型的參數進行優化;響應于確定優化后的初始模型符合預設條件,確定優化后的初始模型為事件提取模型。
在一些實施例中,基于觸發詞損失、事件論元損失和論元角色損失,對初始模型的參數進行優化,包括:獲取觸發詞損失、事件論元損失和論元角色損失分別對應的第一權重、第二權重、第三權重,其中,第一權重、第二權重、第三權重通過訓練過程中自動學習得到;基于第一權重、第二權重、第三權重,確定初始模型的總損失;基于總損失,對初始模型的參數進行優化。
在一些實施例中,第一權重、第二權重、第三權重通過在訓練時設置在初始模型中的自注意力層自動學習得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門安勝網絡科技有限公司,未經廈門安勝網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010988657.9/2.html,轉載請聲明來源鉆瓜專利網。





