[發明專利]一種中文同指事件識別方法及系統有效
| 申請號: | 201510726584.5 | 申請日: | 2015-10-30 |
| 公開(公告)號: | CN105302794B | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 李培峰;朱巧明;周國棟;朱曉旭 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 指事 識別 方法 系統 | ||
一種中文同指事件識別方法及系統,所述方法包括:對同指標注文本和測試文本中每個包含事件的句子進行詞語切分、實體識別和句法分析,得到預處理標注文本集合和預處理測試文本集合,并分別從預處理標注文本集合和預處理測試文本集合中以文檔為單位抽取事件類型相同的事件對及其特征信息,得到標注文本特征集合和測試文本特征集合。根據標注文本特征集合中各個事件對的特征,訓練一個同指事件識別模型;再利用同指事件識別模型判別測試文本特征集合中每個特征對應的事件對是否存在同指關系,得到事件同指第一集合。對事件同指第一集合中初步識別的同指事件結果以文檔為單位進行全局優化,得到事件同指集合。如此,提高了同指事件識別的性能。
技術領域
本發明屬于自然語言處理領域,具體涉及一種識別事件間的中文同指事件識別方法及系統。
背景技術
事件(Event)是信息表示的一種主要形式,它是一種特定人、物、事在特定時間和特定地點相互作用的客觀事實(也稱“自然事件”),如人的受傷、死亡事件和食品的添加劑事件等。一篇文章中經常會包含許多事件,這些事件之間存在各種關系。當兩個事件指向同一個事件本體時,認為這兩個事件具有同指(或共指)關系。例如:
例1:兩國首腦今天在巴黎舉行會談?!p方在會談中討論了中東和平問題。
例2:2007年美國爆發了金融危機?!@一事件對美國乃至全世界產生了深遠的影響。
例1中觸發詞“會談”在兩個語句中都指向同一個事件本體,它們具有同指關系。例2中“這一事件”與“金融危機”都指向了同一事件,它們也互為同指事件。
同指事件識別(也稱消解)是信息抽取的一個子任務,用于識別一個文檔中指向同一個事件本體的事件集合。正確識別同指事件,將更加準確地概括文章大意,有利于篇章理解、文本摘要、機器翻譯等應用。與實體指代大多數情況存在于相鄰句子之間有所不同,同指事件往往跨越句子、跨越段落,甚至跨文本,這是同指事件識別的難點之一。此外,中文和英文同指事件也有所不同。英文的語法更加嚴謹,詞語多義性相對較少。而中文常常省略主語,沒有明顯的時態、單復數等,導致中文語法較為復雜、隨意。而且,中文詞匯量龐大,一詞多義性普遍存在,使得中文同指事件識別的研究具有很大困難,識別率偏低。
目前,對事件同指問題研究相對較少,絕大多數面向英文。Ahn在研究英文事件抽取時提到了事件同指識別問題,依據實體同指的思想把事件同指問題轉化成事件對相似度計算問題。Adrian則更加具體化事件對的特征屬性,認為事件的結構包含該事件與其他事件之間的關系狀態,使用結構化特征進行同指事件的研究,并提供了標注規則以及英文語料庫。Chen基于英文ACE語料庫建立了特征壓縮的事件對同指識別系統。此外,Chen利用聚類算法,將英文同指事件聚集生成圖模型。Fatemeh在AQUAINT TimeML語料庫上手工標注了同指鏈,利用語義類型識別和相似度匹配方法識別英文同指事件。
相對于英文事件同指問題,中文事件的同指識別研究更少。針對中文語料庫上的指代消解問題,胡乃全基于最大熵模型建立中文指代消解系統,在ACE05bnews中文語料庫上有一定提高。張牧宇等使用中心詞匹配約束,對共指消解效果有很大提高。龐寧等針對突發事件新聞,使用了多種語義特征進行共指消解,增加了維基百科的語義相關特征,使得共指消解模型有所提高。
目前,在中文同指事件識別領域,多數方法采用基于分類器的機器學習方法和規則方法,這些方法存在以下問題:1)多數采用機器學習的中文同指事件識別方法還是沿用英文同指事件識別的方法,語言針對性不夠。和英文不同,中文是一種意合語言,具有語法較為復雜、表達較為隨意、常常省略主語、沒有明顯的時態、單復數等特點。這些特點使得沿用英文同指事件識別的方法在性能上欠缺;2)機器學習方法假設事件對之間相互獨立,容易造成分類結果矛盾,同指事件鏈不一致等問題;3)規則方法的缺點在于規則的構建成本高,而且通用性不夠,無法跨領域使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510726584.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種資源緩存方法及裝置
- 下一篇:一種信息轉換方法及裝置





