[發明專利]一種中文結構化事件抽取方法在審
| 申請號: | 202011015681.0 | 申請日: | 2020-09-24 |
| 公開(公告)號: | CN112183059A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 萬齊智;萬常選;胡蓉;劉德喜 | 申請(專利權)人: | 萬齊智;萬常選;胡蓉;劉德喜 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30 |
| 代理公司: | 北京保識知識產權代理事務所(普通合伙) 11874 | 代理人: | 尹瑩瑩 |
| 地址: | 330013 江西省南昌市昌北國家經濟*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 結構 事件 抽取 方法 | ||
本發明涉及一種中文結構化事件抽取方法,屬于信息抽取技術領域;一種中文結構化事件抽取方法,利用句法依存分析工具對非結構化文本語句進行句法依存結構分析,獲得句法依存分析樹;分析中文語言學和句法依存分析樹的特征,構建核心動詞鏈,識別語句中存在的所有事件;借助語義依存分析工具為句法依存分析樹添加語義依存關系,構建句法語義依存分析樹;調整句法語義依存分析樹中事件核心動詞、介詞和被動語態的依存結構,構建句法語義依存分析事件圖;本發明不需要人工標注數據,能夠較好地抽取結構化事件,且抽取的精確率、召回率較高。
技術領域
本發明屬于信息抽取技術領域,具體屬于事件抽取技術領域,涉及一種中文結構化事件抽取方法。
背景技術
隨著網絡的迅速發展,每天都會產生大量的非結構化文本數據,如何根據具體應用需求從非結構化文本數據中抽取有價值、有意義的結構化信息,具有重大意義。事件抽取作為信息抽取的子任務,具有較大的應用前景。以財經領域為例,投資者及上市公司對股票市場趨勢比較感興趣,趨勢預測可以為市場分析、決策提供較為有力的支撐,抽取的事件可為預測提供幫助。事件抽取主要是從本文中抽取包含的所有事件。財經領域比較關注事件的行為動作以及作用的對象,事件抽取的內容對股市趨勢預測效果至關重要,而上述內容主要包含于語句的主謂賓中,因此結構化事件抽取目標主要是抽取包含主謂賓的事件。
在過去的十多年中,國內外已有較多有關事件抽取的研究,根據抽取目標及應用價值不同分為傳統事件抽取和基于應用需求驅動的事件抽取。傳統事件抽取一般分為4個子任務,觸發詞識別和分類、論元識別和分類,前者稱為事件探測。傳統事件抽取重點研究采用何種方法或模型提高事件觸發詞或論元所屬類別的正確率,即分類效果,且大部分聚焦于標準事件類型的事件抽取。此系列的事件抽取主要采取經典的卷積神經網絡、循環神經網絡以及各種先進的、變形的神經網絡等深度學習模型來解決分類問題,但這需要大量人工標注數據作為訓練支撐,在目前中文標注數據匱乏情況下,一定程度限制了傳統事件抽取的分類效果。
基于應用需求驅動的事件抽取旨在結合具體應用需求,定義事件類型及需要抽取的內容,采取先進的方法完成所需事件的抽取。Ding等人提出使用結構化事件來預測股票價格波動,但該研究在事件內容抽取上存在較大的局限性。在抽取謂語和論元時添加了句法和詞匯限制,約束條件過于嚴苛,使得大量事件被過濾掉了。另外,該技術針對于英文語料,而中文屬于意合性語言,多短句、慣用動詞表達,使得語句包含的謂語較多,增加了哪些動詞充當事件謂語的判斷難度,該研究采用的信息開放抽取技術不太適用。Yang等人自定義了財經領域事件類型,采用Bi-LSTM-CRF方法抽取文檔級事件,但該技術存在三個問題:一是需要基于存在的事件知識庫,二是只能抽取指定類型的事件,對于無類型的開放模式事件抽取存在局限性,三是一個文檔只能抽取一個結構化事件。
開放領域結構化事件抽取主要采用貝葉斯圖形模型方法,且取得了一定的進展。但是這些方法假設一個文檔中所有詞都是來自于一個單獨事件,這對短文本可能成立,但針對長文本則不太合適。為了解決這個問題,Wang等人提出了對抗-神經事件模型,但這些方法均需要較多的標注語料作為訓練,才能取得較好的效果。
由于上述方法存在著較多嚴重的缺陷,需要一種簡單的、無需任何知識基礎和人工標注數據的中文結構化事件抽取方法,以提高事件抽取的效果。
發明內容
為了克服目前對于中文結構化事件抽取模型的不足,本發明基于句法和語義依存分析提出了一種中文結構化事件抽取方法。
本發明通過以下技術方案實現:
一種中文結構化事件抽取方法,所述的結構化事件記為:ET=(Sub,Pred,Obj),其中Sub、Pred和Obj分別表示事件的主語、謂語和賓語,包含以下步驟:
A、首先利用句法依存分析工具對非結構化文本語句進行句法依存分析,獲得句法依存分析樹;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于萬齊智;萬常選;胡蓉;劉德喜,未經萬齊智;萬常選;胡蓉;劉德喜許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011015681.0/2.html,轉載請聲明來源鉆瓜專利網。





