[發明專利]一種事件抽取方法和系統及實體分類模型有效
| 申請號: | 202010461711.4 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN111368175B | 公開(公告)日: | 2020-08-28 |
| 發明(設計)人: | 黃偉鵬;徐軍;王峰 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/33;G06F40/295;G06F40/211 |
| 代理公司: | 成都七星天知識產權代理有限公司 51253 | 代理人: | 袁春曉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 事件 抽取 方法 系統 實體 分類 模型 | ||
本說明書實施例提供一種事件抽取方法和系統及實體分類模型。所述方法包括:獲取待處理文本中的一個或多個實體,所述待處理文本為包含兩個或以上句子的篇章級文本;確定所述一個或多個實體中每個實體的局部特征,所述局部特征反映實體與所述待處理文本中至少一個句子之間的關聯關系;基于所述一個或多個實體的所述局部特征,確定每個實體的全局特征,所述全局特征反映實體與所述待處理文本的整體關聯關系;對于所述一個或多個實體中每個實體,基于該實體的全局特征確定該實體的事件要素類型;基于所述一個或多個實體的事件要素類型,抽取所述待處理文本中的一個或多個事件以及對應的實體。
技術領域
本說明書涉及自然語言處理領域,特別涉及一種事件抽取方法和系統及實體分類模型。
背景技術
為了快速獲知文本涉及的主題或事件,可以通過計算機技術自動抽取相關主題的新聞報道、官方公告、研究報告等文章中的關鍵內容獲得。但是,一篇文章中可能包含多個事件,且構成事件的要素(如時間、地點、人物等)可能分散在同一文章的不同句子中。
因此,期望提供一種篇章級的事件抽取方法和系統。
發明內容
本說明書的一個方面提供一種事件抽取方法。所述方法包括:獲取待處理文本中的一個或多個實體,所述待處理文本為包含兩個或以上句子的篇章級文本;確定所述一個或多個實體中每個實體的局部特征,所述局部特征反映實體與所述待處理文本中至少一個句子之間的關聯關系;基于所述一個或多個實體的所述局部特征,確定每個實體的全局特征,所述全局特征反映實體與所述待處理文本的整體關聯關系;對于所述一個或多個實體中每個實體,基于該實體的全局特征確定該實體的事件要素類型;基于所述一個或多個實體的事件要素類型,抽取所述待處理文本中的一個或多個事件以及對應的實體。
本說明書的另一方面提供一種事件抽取系統。所述系統包括:獲取模塊,用于獲取待處理文本中的一個或多個實體,所述待處理文本為包含兩個或以上句子的篇章級文本;第一確定模塊,用于確定所述一個或多個實體中每個實體的局部特征,所述局部特征反映實體與所述待處理文本中至少一個句子之間的關聯關系;第二確定模塊,用于基于所述一個或多個實體的所述局部特征,確定每個實體的全局特征,所述全局特征反映實體與所述待處理文本的整體關聯關系;分類模塊,用于對于所述一個或多個實體中每個實體,基于該實體的全局特征確定該實體的事件要素類型;抽取模塊,用于基于所述一個或多個實體的事件要素類型,抽取所述待處理文本中的一個或多個事件以及對應的實體。
本說明書的另一方面提供一種事件抽取裝置,包括處理器,所述處理器用于執行如前所述的方法。
本說明書的另一方面提供一種計算機可讀存儲介質,所述存儲介質存儲計算機指令,當計算機讀取存儲介質中的計算機指令后,計算機執行如前所述的方法。
本說明書的另一方面提供一種實體分類模型。所述模型包括:前處理層,用于獲取待處理文本及其中的一個或多個實體,所述待處理文本為包含兩個或以上句子的篇章級文本;句子級注意力網絡,用于確定所述一個或多個實體中每個實體的局部特征,所述局部特征反映實體與所述待處理文本中至少一個句子之間的關聯關系;篇章級注意力網絡,用于基于所述一個或多個實體的所述局部特征,確定每個實體的全局特征,所述全局特征反映實體與所述待處理文本的整體關聯關系;分類層,用于對于所述一個或多個實體中每個實體,基于該實體的全局特征確定該實體的事件要素類型。
附圖說明
本說明書將以示例性實施例的方式進一步說明,這些示例性實施例將通過附圖進行詳細描述。這些實施例并非限制性的,在這些實施例中,相同的編號表示相同的結構,其中:
圖1是根據本說明書的一些實施例所示的事件抽取系統的應用場景示意圖;
圖2是根據本說明書的一些實施例所示的事件抽取方法的示例性流程圖;
圖3是根據本說明書的一些實施例所示的實體分類模型的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010461711.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于區塊鏈的商票融資系統及方法
- 下一篇:一種身份識別方法及系統





