[發明專利]一種事件識別模型的訓練方法和裝置有效
| 申請號: | 201811535981.4 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109670174B | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 劉樹林 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 識別 模型 訓練 方法 裝置 | ||
本發明實施例公開了一種事件識別模型的訓練方法和裝置,用于實現不依賴觸發詞的事件識別模型訓練,提高事件識別模型的訓練效率。該方法包括:從訓練數據庫中獲取到目標事件類型和第一文本樣本,并將所述目標事件類型和所述第一文本樣本輸入到初始的事件識別模型中,所述事件識別模型中配置有注意力層;通過所述注意力層獲取所述第一文本樣本中每個詞相對于所述目標事件類型的關注度信息;根據所述第一文本樣本中每個詞相對于所述目標事件類型的關注度信息,通過所述事件識別模型輸出所述第一文本樣本與所述目標事件類型的關聯結果;根據所述事件識別模型輸出的所述關聯結果,采用預設的損失函數對所述事件識別模型進行訓練。
技術領域
本發明涉及計算機技術領域,尤其涉及一種事件識別模型的訓練方法和裝置。
背景技術
事件是一個復雜的概念,對事件進行準確的定義是一個非常困難的問題,學術界和工業界至今為止沒有公認的定義。在不同領域的研究中,事件具有不同的定義及表示。在面向新聞文本進行事件識別的場景下,采用自動內容抽取(Automatic ContentExtraction,ACE)為事件給出如下的定義:事件是發生在某個特定時間(時間段)、某個特定地域范圍內,由一個或多個角色參與的由一個或多個動作構成的事情或狀態的改變。
事件識別的方法可以分為基于模式匹配的方法和基于機器學習的方法。其中,基于模式匹配的方法是指對某種類型事件的識別和抽取是在預設模式的指導下進行的,采用各種模式匹配的算法將待識別的事件和已知的模式進行匹配。模式匹配的過程就是事件識別和抽取的過程。基于模式匹配的方法具有可移植性差、召回率低的缺陷。
現有技術還提供基于機器學習的方法用于事件識別,但是需要通過對觸發詞的識別來完成。例如,假設需要對文本“潘XX恩師李XX去世”進行事件識別,通過機器學習的方法識別到“去世”是一個死亡事件的觸發詞,因此判定該文本描述了一個死亡事件。現有技術中需要將觸發詞的識別建模為詞分類的問題。具體地,將給定文本中的每個詞作為候選的觸發詞,并對其進行分類,目標類別需要是預先定義好的事件類型。
現有技術中對事件的識別依賴事件的觸發詞,因此在模型訓練過程中標注數據時,不僅要標注出每個文本的事件類型,還要標注出相應的觸發詞。由于觸發詞是文本中最能指示某一事件發生的詞,人工挑選觸發詞的難度大,尤其對于長文本來說,要標注出觸發詞的難度更大。這大大增加了數據的標注成本,降低了事件識別模型的訓練效率。
發明內容
本發明實施例提供了一種事件識別模型的訓練方法和裝置,用于實現不依賴觸發詞的事件識別模型訓練,提高事件識別模型的訓練效率。
本發明實施例提供以下技術方案:
一方面,本發明實施例提供一種事件識別模型的訓練方法,包括:
從訓練數據庫中獲取到目標事件類型和第一文本樣本,并將所述目標事件類型和所述第一文本樣本輸入到初始的事件識別模型中,所述事件識別模型中配置有注意力層;
通過所述注意力層獲取所述第一文本樣本中每個詞相對于所述目標事件類型的關注度信息;
根據所述第一文本樣本中每個詞相對于所述目標事件類型的關注度信息,通過所述事件識別模型輸出所述第一文本樣本與所述目標事件類型的關聯結果;
根據所述事件識別模型輸出的所述關聯結果,采用預設的損失函數對所述事件識別模型進行訓練。
另一方面,本發明實施例還提供一種事件識別模型的訓練裝置,包括:
模型輸入模塊,用于從訓練數據庫中獲取到目標事件類型和第一文本樣本,并將所述目標事件類型和所述第一文本樣本輸入到初始的事件識別模型中,所述事件識別模型中配置有注意力層;
關注度獲取模塊,用于通過所述注意力層獲取所述第一文本樣本中每個詞相對于所述目標事件類型的關注度信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811535981.4/2.html,轉載請聲明來源鉆瓜專利網。





