[發明專利]文本事件抽取方法及裝置在審
| 申請號: | 201910959652.0 | 申請日: | 2019-10-10 |
| 公開(公告)號: | CN110727803A | 公開(公告)日: | 2020-01-24 |
| 發明(設計)人: | 羅華剛 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F40/211;G06F40/289 |
| 代理公司: | 11240 北京康信知識產權代理有限責任公司 | 代理人: | 劉旺貴 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 抽取 句法結構 文本信息 分詞 句子 知識庫 依存句法分析 文本事件 形式構建 規范化 圖譜 清洗 補充 分析 | ||
本發明提供了一種文本事件抽取方法及裝置,該方法包括:對待處理的文本進行清洗和分詞;對分詞后的所述文本進行依存句法分析,以獲取所述文本中每個句子的句子成分;依據知識庫和所述文本的上下文對句子進行成分補充和實體規范化,以抽取所述文本中的事件;依據句法結構以實體?關系?實體的形式構建所述事件的圖譜。在本發明中,從句法結構上去分析文本信息,事件抽取不需要設定規定的模式,具有極強的通用性,文本補全和實體規范化能有效的利用文本信息,使得事件抽取更為合理有效。
技術領域
本發明涉及文本處理領域,具體而言,涉及一種文本事件抽取方法及裝置。
背景技術
事件抽取是指把含有事件信息的非結構化的文本以結構化的形式呈現出來。從海量的文本中抽取事件,從而可以利用分析結構化數據的方法來分析使用文本數據。例如從火災新聞文本中抽取火災事件,將便于我們研究火災,更好的做到預防火災,防患未然。現有的文本事件抽取的方法一般有兩種:基于模式匹配的事件抽取方法以及基于機器學習的事件抽取方法。
現有的對文本進行事件抽取的主流技術手段有兩種:基于模式匹配的事件抽取方法,基于傳統機器學習的事件抽取方法。
基于模式匹配的事件抽取方法,是通過定義一系列模式,從文本中對事件進行識別和抽取。基于傳統機器學習的事件抽取方法,是將事件抽取問題轉化為分類問題,通過傳統的分類算法實現事件分類以及事件論元識別。
對于基于模式匹配的事件抽取方法,模式的定義依賴于領域知識,通過指明所要提取的事件論元的上下文來實現。但是,模式的定義依賴于專家知識,需要人工建立,耗費的人力成本、時間成本較大。另外,由于模式的確定性,系統的可移植性差,從一個領域遷移到另一個領域需要重新構建。即使是相同領域,隨著時間的推移,技術的發展,模式也可能不再適用。
對于基于機器學習的方法,雖然不依賴于語料的內容和格式,但需要大規模的標注語料。然而人工標注語料耗時耗力。語料的質量直接影響到事件抽取的效果,并且依然需要定義事件論元。
發明內容
本發明實施例提供了一種文本事件抽取方法及裝置,以至少解決相關技術中在進行文本事件抽取時,需設定規定的模式,缺乏通用性的問題。
根據本發明的一個實施例,提供了一種文本事件抽取方法,包括:對待處理的文本進行清洗和分詞;對分詞后的所述文本進行依存句法分析,以獲取所述文本中每個句子的句子成分;依據知識庫和所述文本的上下文對句子進行成分補充和實體規范化,以抽取所述文本中的事件;依據句法結構以實體-關系-實體的形式構建所述事件的圖譜。
可選地,在依據句法結構以實體-關系-實體的形式構建所述事件的圖譜之前,還包括:將抽取的事件與數據庫內的事件進行相似度比較,當相似度超過設定閾值時,則確定為相同事件;對相同事件進行合并,對于不同事件按照新事件存入數據庫。
可選地,在依據句法結構以實體-關系-實體的形式構建所述文本中事件的圖譜之后,還包括:將所述事件的圖譜進行可視化展示。
可選地,該方法還包括:如果所述事件為數據庫中的已有事件,可單獨展示所述事件的圖譜或與數據庫中的已有事件合并后展示合并事件的圖譜。
可選地,在對待處理的文本進行清洗和分詞之前,還包括:獲取所述待處理的文本。
根據本發明的另一個實施例,提供了一種文本事件抽取裝置,包括:分詞模塊,用于對待處理的文本進行清洗和分詞;句法分析模塊,用于對分詞后的所述文本進行依存句法分析,以獲取所述文本中每個句子的句子成分;補充模塊,用于依據知識庫和所述文本的上下文對句子進行成分補充和實體規范化,以抽取所述文本中的事件;構建模塊,用于依據句法結構以實體-關系-實體的形式構建所述事件的圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910959652.0/2.html,轉載請聲明來源鉆瓜專利網。





