[發明專利]一種基于文體和詞表的突發事件信息抽取方法及系統在審
| 申請號: | 201711343022.8 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107844609A | 公開(公告)日: | 2018-03-27 |
| 發明(設計)人: | 邱奇志;周三三;劉長發;陳暉;於利艷;於劍 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 魏波 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文體 詞表 突發事件 信息 抽取 方法 系統 | ||
1.一種基于文體和詞表的突發事件信息抽取方法,其特征在于,包括以下步驟:
步驟1:獲取新聞網站內容作為初始新聞語料庫;
步驟2:事件識別與分類;
對初始新聞語料庫進行預處理,判斷新聞報道是否為突發事件,并在此基礎上對獲取新聞進行分類;
步驟3:信息抽取;
完成突發事件基本屬性的抽取,實現突發事件信息結構化。
2.根據權利要求1所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟2中,所述對初始新聞語料庫進行預處理,包括去除新聞中因文本爬取保存過程中發生的字符亂碼,舍棄新聞內容字數少于30個字符的新聞。
3.根據權利要求1所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟2中,判斷新聞報道是否為突發事件,首先以突發事件類型構建基礎詞表,基礎詞表由領域專家構建;利用Google Word2Vec,以基礎詞表為核心,無監督地生成擴充詞表,選取Word2Vec計算出來的詞中相關度最高的前10個詞構成子關鍵詞;
然后判斷輸入新聞是否包含基礎詞表中關鍵詞,若包含則屬于該基礎詞表所屬類型,若不包含則統計輸入新聞包含擴充詞表中子關鍵詞個數,若大于2,則該新聞屬于擴充詞表所屬類型,反之,該新聞不屬于突發事件。
4.根據權利要求3所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟2中,所述對突發事件分類,包含四類:事故災害、公共衛生、社會安全、自然災害。
5.根據權利要求1-4任意一項所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟3中,將web新聞時間分為新聞發表時間pt、新聞報道時間rt、事件發生時間et;在突發事件時間基本屬性抽取過程中,對于新聞的時間屬性抽取,依次提取新聞發表時間pt、新聞報道時間rt、事件發生時間et,若成功提取,則覆蓋前一時間。
6.根據權利要求1-4任意一項所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟3中,在突發事件基本屬性抽取過程中,對于事件摘要屬性抽取,采用基于最大邊界相關法MMR,分別計算句子在文本中的重要性分值和句子與已被選擇成摘要的句子之間的相似度最大值,按照比例相減,取得分最高的句子加入摘要集。
7.根據權利要求1-4任意一項所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟3中,在突發事件基本屬性抽取過程中,對于突發事件地點屬性抽取,根據中國地名,建立各省市詳細的地名表,采用樹結構存儲;在對新聞中地名實體進行識別后,遍歷地名結構樹,從而得到突發事件完整地點。
8.根據權利要求1-4任意一項所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟3中,在突發事件基本屬性抽取過程中,對于突發事件傷亡屬性抽取,采用文體、詞表和規則相結合的方法,首先構建傷亡詞表,同時定義相關規則進行突發事件傷亡屬性抽取。
9.根據權利要求1-4任意一項所述的基于文體和詞表的突發事件信息抽取方法,其特征在于:步驟3中,在突發事件基本屬性抽取過程中,對于突發事件的經濟損失屬性抽取,采用文體、詞表和規則相結合的方法,首先構建損失詞表識別描述經濟損失的句子,然后根據文體特點和規則定義正則抽取經濟損失屬性。
10.一種基于文體和詞表的突發事件信息抽取系統,其特征在于:包括信息獲取模塊、事件識別與分類模塊、信息抽取模塊;
所述信息獲取模塊,用于獲取新聞網站內容作為初始新聞語料庫;
所述事件識別與分類模塊,用于對初始新聞語料庫進行預處理,判斷新聞報道是否為突發事件,并在此基礎上對突發事件分類;
所述信息抽取模塊,用于完成突發事件基本屬性的抽取,實現突發事件信息結構化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711343022.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于形成包裝的方法和系統
- 下一篇:卷軸部件、膜收納體以及卷軸部件的制造方法





