[發明專利]文本信息抽取方法和系統無效
| 申請號: | 201110273322.X | 申請日: | 2011-09-15 |
| 公開(公告)號: | CN102298642A | 公開(公告)日: | 2011-12-28 |
| 發明(設計)人: | 李培峰;朱巧明;孔芳;周國棟;錢龍華 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 逯長明 |
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息 抽取 方法 系統 | ||
技術領域
本發明涉及面向互聯網的自然語言處理領域,具體地說,是涉及一種抽取文本中某種現象或某個事件產生的原因的信息抽取方法和系統。
背景技術
在互聯網上,文本是信息表示的最主要方式,人們經常會通過互聯網上的文本來得到想要獲取的信息。
文本信息抽取技術是一種精確化和高效的信息獲取手段,它是從一個或多個網頁中抽取指定的實體、關系、事件和事實等用戶需要的信息,并形成結構化的數據,呈現給用戶,具有內容精確、冗余度小、組織規范等優點。目前,基于互聯網的文本信息抽取技術有兩種常見形式:基于包裝器(Wrapper)半結構化文本信息抽取,和基于自然語言處理技術的無結構化文本信息抽取。基于包裝器半結構化文本信息抽取技術主要根據網頁中的HTML標注生成包裝器并利用包裝器來從半結構化的HTML文本中抽取所需要的信息。如互聯網的商品價格抽取系統就是它的一個應用實例。目前,絕大多數的Web信息抽取系統和方法就屬于這一類;基于自然語言處理技術的無結構化文本信息抽取處理的對象是由大段的文字組成的自然文本(如網頁的正文、郵件的正文等),在文字之間并無結構或標注信息。
人們在生活中經常會問為什么,如“為什么會感冒?”、“網癮的原因是什么?”、“法航447航班為什么會失事?”等,其目的是為了了解某個事情的原因。重要的是,從互聯網文本中抽取某種現象或某個事件的原因,對情報分析、或對軍事決策、或對災難的預警、或對醫學技術的研發等方面具有不可估量的價值。
這種從互聯網文本中抽取某種現象或某個事件的原因信息的屬于無結構化文本信息抽取。目前在無結構化文本信息抽取方法中,根據其自動化程度,一般分為手工規則方法、有監督方法、半監督方法和無監督方法。手工規則方法由人工閱讀大量的文檔信息,從中總結出規則,然后系統利用這些規則來抽取信息,該方法準確率高,但是耗時、耗力,成本過高;有監督方法則是由用戶標注出大量的訓練樣本,然后采用機器學習的方法學習訓練樣本得到一個訓練后的分類器,用于抽取信息,該方法一般比手工規則方法準確率低,但是花費的成本相對也低;半監督方法首先標注少量樣本,然后在此基礎上加入大量未標注樣本,學習該樣本得到一個訓練后的分類器,用于抽取信息,該方法一般比有監督方法準確率低,但是標注的樣本同樣也少;無監督方法則不需要用戶的任何標注信息,在抽取過程中不需要用戶的干預,自動化程度高、成本低,但是相比其它方法,準確率偏低。
發明內容
為了解決現有技術方法中存在的不足,本發明實施例提供了一種文本信息抽取方法和系統,用于抽取文本中有關一種現象或事件產生的原因信息。
一種文本信息抽取方法,其步驟包括:
設置第一檢索條件,檢索并選取第一候選網頁,從所述第一候選網頁中提取第一候選語句;所述第一候選網頁與第一候選語句滿足第一檢索條件;
根據第一候選語句生成第一句法樹,并得到第一標注候選語句;
根據第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;
讀取用戶輸入的需要抽取原因的現象的關鍵詞,根據所述關鍵詞與原因句模式庫,設置第二檢索條件,檢索并選取第二候選網頁,從所述第二候選網頁中提取第二候選語句,所述第二候選網頁與第二候選語句滿足第二檢索條件;根據第二候選語句,生成第二標注候選語句;
裁剪第二標注候選語句,抽取候選原因結點,構造候選原因結點到現象結構的依存路徑,并生成候選原因依存子樹集合,從候選原因依存子樹集合中抽取原因信息,添加到原因庫中。
本發明實施例還提供了一種文本信息抽取系統,包括:原因句子采集模塊,用于設置第一檢索條件,檢索并選取第一候選網頁,從所述第一候選網頁中提取第一候選語句;所述第一候選網頁與第一候選語句滿足第一檢索條件;
句子標注模塊,用于根據第一候選語句生成第一句法樹,并得到第一標注候選語句;
依存模式抽取和歸并模塊,用于根據第一句法樹裁剪第一標注候選語句,生成裁剪依存樹;把裁剪依存樹分類為原因句依存樹集合和非原因句依存樹集合;根據第一句法樹中的依存路徑,合并原因句依存樹集合中的裁剪依存樹,生成原因句模式庫;合并非原因句依存樹集合中的依存樹生成非原因句模式庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110273322.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





