[發明專利]事件信息融合方法和系統有效
| 申請號: | 201110269307.8 | 申請日: | 2011-09-13 |
| 公開(公告)號: | CN102298635A | 公開(公告)日: | 2011-12-28 |
| 發明(設計)人: | 李培峰;朱巧明;周國棟;王紅玲;朱曉旭 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 事件 信息 融合 方法 系統 | ||
技術領域
本發明涉及信息處理領域,尤其涉及一種事件信息融合方法和系統。
背景技術
由于本發明涉及了事件信息處理系統中的多個和事件相關的概念,為了更好的理解本發明,先對相關概念作出說明:
事件(Event):在真實世界中已經/可能/將要發生的事情,一般包括時間、地點和人物等角色,如出生、死亡、地震和車禍等事件,由于表達方式的不同,每個特定的事件可能有不止一個的事件實例。
實體(Entity):一個語義類別中的對象或對象的集合,如人名、交通工具和地名等。
事件實例(Event?Mention,EM):描述一個事件的句子或子句,如“張三1973年出生于江蘇蘇州。”就是一個類別為出生事件的事件實例。
錨(Anchor):事件的觸發詞(一般為動詞和名詞居多)稱為錨,用于識別事件。如“生于”、“出生”等就是出生事件的錨。
事件角色(Event?Role):事件包含的元素就是事件角色,如出生事件包含“人名”、“出生時間”、“出生地點”等角色。
事件論元(EventArgument):事件角色的實例(或取值)就是事件論元。如“1997年”、“1997年5月3日”等就是特定的出生事件中的角色“出生時間”的論元。
同指事件實例(Coreference?Event?Mentions):描述同一事件的事件實例。如圖1中EM1和EM2就是同指事件實例,簡稱同指事件,都是描述了永州法院槍擊案中的死亡事件。
相關事件(Related?Events):兩個或多個事件存在內在聯系,這些事件稱為相關事件,如圖1中EM3(攻擊事件)、EM4(死亡事件)和EM5(受傷事件)就是相關事件,它們描述了一個主題事件“永州法院槍擊事件”的三個側面。
完備事件(Complete?Event):各個事件角色的論元盡可能不缺失且內容盡可能完整的事件稱為完備事件。如圖1中死亡事件EM1、EM2和EM4描述了同一個事件,它們是同指事件,假設一個死亡事件有4個角色:死亡時間、死亡地點、死亡人員和兇手。那么,這3個事件實例都缺少部分論元或論元的內容不完備,如EM1缺少死亡時間、死亡地點和兇手,另外死亡人員信息也不完備,根據同指事件EM1、EM2和EM4,以及它們的相關事件EM3,可以得到一個完備事件。
事件融合(Events?Fusion):針對每個特定的事件,根據該事件的同指事件和相關事件的描述,融合生成一個描述盡可能完備、論元內容完整全面的完備事件的過程,也就是根據同指事件和相關事件生成完備事件的過程,如由圖1中EM1、EM2、EM4和EM3得到EM6的過程就是事件融合的過程。
指代消解(Coreference?Resolution):如果兩個詞或短語指示現實世界中同一實體,那么它們存在指代關系,指代消解就是在文檔中找出指示同一個實體的所有詞或短語,把它們鏈接成為一個指代鏈。如上面兩個句子中就存在一條指代鏈“詞或短語←→它們←→詞或短語”。
基于互聯網的信息抽取技術一般分為兩種形式:半結構化文本信息抽取和無結構化文本信息抽取,前者主要根據網頁中的HTML標注生成包裝器(Wrapper)并利用包裝器來從文本中抽取信息,它主要用于抽取那些信息表示具有一定結構的網頁中的數據,如商品比價系統就是它的一個應用實例。目前,絕大多數的Web信息抽取系統和方法就屬于這一類;而后者針對的是自然文本,如網頁的正文、郵件的正文等,自然文本由大段的文字組成,而這些文字之間并無結構或標注,所以在實現上比前一種方法更加困難,事件信息處理就屬于這一類。
目前,事件信息抽取研究主要集中在簡單語句或者句群中的事件抽取,沒有對事件抽取后的事件融合技術,使得事件信息不完整和不準確,存在事件屬性缺失的問題。
發明內容
本發明實施例提供了一種事件信息融合方法和系統,用于對事件信息進行抽取、事件屬性補全、事件聚類和融合,形成事件信息完整度高的完備事件。
本發明實施例提供了一種事件信息融合方法,包括以下步驟:
設置檢索條件,按照檢索條件檢索生成包括多個事件的初選事件集合;
比較所述初選事件集合中的事件與預先設置的事件抽取模式的相似度,選取所述相似度大于一預設閾值的事件形成候選事件集合,甄別和標注候選事件集合,生成訓練樣本,并通過訓練樣本生成相關事件推理規則、零指代消解模型、事件識別和抽取模型、論元識別和抽取模型;
從待抽取完備事件的網頁中獲取網頁正文,對網頁正文進行標注,生成事件標注正文;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110269307.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:提供電力系統信息的方法與裝置
- 下一篇:一種放大顯示方法和系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





