[發明專利]基于規劃?目標圖的新聞事件信息抽取方法在審
| 申請號: | 201611213321.5 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106874345A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 趙美靜;倪晚成;劉禹 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙)11482 | 代理人: | 李飛,吳曉芬 |
| 地址: | 100080 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 規劃 目標 新聞 事件 信息 抽取 方法 | ||
技術領域
本發明涉及計算機應用中的輿情分析和文本處理技術領域,具體來說涉及一種基于規劃-目標圖的新聞事件信息抽取方法。
背景技術
隨著web技術的迅猛發展,互聯網普及率逐漸上升,信息公開化程度逐步提高,網絡已經成為新聞事件報道和傳播的重要平臺。互聯網上新聞網頁的數量急劇增長,新聞量和冗余信息的增加,給閱讀和信息分析帶來了新的挑戰。快速、精準地從新聞報道中自動抽取新聞事件信息,尤其是新聞事件的關鍵信息,一方面,能夠輔助分析和管理新聞事件,降低人工成本,提高分析效率;另一方面,能夠為網絡輿情的監控和預警、熱點事件的檢索和追蹤、智能問答系統及大數據決策支持等上層應用提供支持,具有廣泛的應用前景。
新聞事件是指發生在某時某地的一件特別的事情,它可以由許多信息組成,其中較為關鍵的信息包括:事件發生的時間、事件發生的地點、事件的參與者、事件的關鍵詞和事件的某些關鍵數字等。這些信息不僅有助于新聞閱讀者快速把握新聞事件的主體內容信息,而且可以為海量新聞數據的自動分析和處理提供必要的基礎內容。由于新聞文本在形式上具有詞匯、句式規范、篇章結構統一、語言風格穩定等特點,使得自動抽取新聞事件的關鍵信息成為可能。然而,目前最常見的新聞抽取系統所解決的問題主要是從新聞網頁中抽取正文中的個別句子作為新聞摘要或者對新聞正文進行簡單的分類處理,關于理解新聞事件內容,特別是自動地、可解釋地進行事件信息抽取等方面的工作仍然空缺。
有鑒于此,特提出本發明。
發明內容
為了解決現有技術中的上述問題,即為了解決如何自動、快速、充分地挖掘新聞事件信息的技術問題而提供一種基于規劃-目標圖的新聞事件信息抽取方法。
為了實現上述目的,提供了以下技術方案:
一種基于規劃-目標圖的新聞事件信息抽取方法,該方法包括:
抽取新聞文本的新聞實體信息和關鍵詞信息;
基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖;
設置新聞事件信息抽取規劃-目標圖的狀態;
根據新聞事件信息抽取規劃-目標圖的狀態,建立新聞事件信息抽取規劃-目標圖的判定規則;
執行新聞事件信息抽取規劃-目標圖的判定規則,抽取新聞事件信息。
進一步地,抽取新聞文本的新聞實體信息和關鍵詞信息具體包括:
將新聞文本分為:標題、摘要和正文;
針對標題、摘要和正文,分別進行分詞、詞性標注和命名實體識別處理,抽取出時間實體、地點實體、人物實體、機構實體,并提取出正文的關鍵詞。
進一步地,當時間實體和地點實體為多個時,將多個時間實體中的一個作為時間實體抽取值,將多個地點實體中的一個多為地點實體抽取值。
進一步地,基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖,具體包括:
基于新聞實體信息和關鍵詞信息,建立層級節點關系圖;其中,層級節點關系圖由規劃節點和目標節點交替組成;
設置同一目標節點的多個規劃節點之間的優先級。
進一步地,設置新聞事件信息抽取規劃-目標圖的狀態具體包括:
設置規劃節點和目標節點的邏輯屬性;
確定同一目標節點的多個規劃節點之間的優先級。
進一步地,執行新聞事件信息抽取規劃-目標圖的判定規則,抽取新聞事件信息,具體包括:
當頂層節點的邏輯屬性為真時,根據目標節點的規劃節點的優先級,抽取新聞事件信息。
進一步地,新聞事件信息包括新聞文本的時間、地點、參與者和事件關鍵詞信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611213321.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種雨水收集裝置
- 下一篇:半導體制水器及制水系統





