[發明專利]事件抽取方法、裝置、系統和存儲介質有效
| 申請號: | 201710530618.2 | 申請日: | 2017-07-03 |
| 公開(公告)號: | CN107562772B | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 吳剛 | 申請(專利權)人: | 南京柯基數據科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/34;G06F16/35;G06F40/205;G06F40/211;G06F40/289;G06F40/295 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 賀琳 |
| 地址: | 211100 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 抽取 方法 裝置 系統 存儲 介質 | ||
1.一種事件抽取方法,其特征在于,所述事件抽取方法包括:
利用對語料庫進行模式學習得到的觸發詞,定位所述語料庫的文檔中的事件句,并根據所述觸發詞的關系分類確定所述事件句的事件類別;
使用所述模式學習得到的模式,模式匹配所述事件句,得到與所述模式相匹配的事件句集;
根據預設的與所述事件類別對應的事件學習模板,抽取所述事件句集中的事件內容;
其中,在所述利用對語料庫進行模式學習得到的觸發詞之前,還包括:
分別計算所述語料庫中的詞匯與預設的觸發詞表中每個觸發詞的觸發詞相似度,所述觸發詞相似度的最大值大于觸發詞相似度閾值時,設置所述詞匯與所述最大值對應的觸發詞具有相同的關系分類,并將所述詞匯作為所述模式學習得到的觸發詞;
使用預設的種子模式抽取所述語料庫中的候選句,并獲取所述候選句中的實體對;
利用所述候選句中的實體對,通過遠程監督的關系抽取方法得到所述語料庫中的模式候選句;
根據所述模式候選句中包含的觸發詞與所述模式候選句中包含的實體對之間的位置關系,從所述模式候選句中抽取候選模式;
通過抽取的候選模式和所述候選模式的抽取次數,根據預設的評分方法對所述候選模式打分,并獲取分數大于模式評分閾值的候選模式;
根據所述分數大于模式評分閾值的候選模式中的,且位于所述實體對中每個實體的位置之前位置的詞匯的詞性,合并所述分數大于模式評分閾值的候選模式,并將合并后的候選模式作為所述模式學習得到的模式。
2.根據權利要求1所述的事件抽取方法,其特征在于,所述利用所述候選句中的實體對,通過遠程監督的關系抽取方法得到所述語料庫中的模式候選句,包括:
對預設的語料庫中的文檔進行實體識別,得到所述文檔中的實體;
根據所述實體對中的實體搜索所述語料庫的文檔中的句子;
所述句子中包含所述實體對,并且所述句子中實體以外的詞匯包含所述觸發詞表中的觸發詞時,根據所述句子、所述句子中包含的所述實體對和所述句子中包含的所述觸發詞,得到所述語料庫中的模式候選句。
3.根據權利要求1所述的事件抽取方法,其特征在于,所述根據所述模式候選句中包含的觸發詞與所述模式候選句中包含的實體對之間的位置關系,從所述模式候選句中抽取候選模式,包括:
獲取所述模式候選句中包含的觸發詞在所述模式候選句中的位置作為觸發詞位置,將所述模式候選句中包含的實體對中的實體分別作為第一實體和第二實體,并獲取所述模式候選句中所述第一實體的位置作為第一實體位置,獲取所述模式候選句中所述第二實體的位置作為第二實體位置,所述第二實體位置位于所述第一實體位置之后;
所述觸發詞位置位于所述第一實體位置之前,獲取位于所述觸發詞位置到所述第二實體位置的內容作為所述抽取的候選模式,并將位于所述觸發詞位置與所述第一實體位置之間的詞匯以及位于所述第一實體位置與所述第二實體位置之間的詞匯作為模式描述詞;
所述觸發詞位置位于所述第一實體位置和所述第二實體位置之間,獲取位于所述第一實體位置到所述第二實體位置的內容作為所述抽取的候選模式,并將位于所述第一實體位置與所述觸發詞位置之間的詞匯以及位于所述觸發詞位置與所述第二實體位置之間的詞匯作為所述模式描述詞;
所述觸發詞位置位于第二實體位置之后,獲取位于所述第一實體位置到所述觸發詞位置的內容作為所述抽取的候選模式,并將位于所述第一實體位置與所述第二實體位置之間的詞匯以及位于所述第二實體位置與所述觸發詞位置之間的詞匯作為所述模式描述詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京柯基數據科技有限公司,未經南京柯基數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710530618.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理過程動態回溯追蹤方法
- 下一篇:刮水片裝置





