[發明專利]互聯網政治外交類新聞事件抽取方法有效
| 申請號: | 201910937986.8 | 申請日: | 2019-09-28 |
| 公開(公告)號: | CN110941692B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 崔瑩;代翔;孫濤;潘磊;丁洪麗 | 申請(專利權)人: | 西南電子技術研究所(中國電子科技集團公司第十研究所) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F40/211;G06F40/289 |
| 代理公司: | 成飛(集團)公司專利中心 51121 | 代理人: | 郭純武 |
| 地址: | 610036 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 政治 外交 新聞 事件 抽取 方法 | ||
本發明公開的一種互聯網政治外交類新聞事件抽取方法,旨在提供一種能夠提高事件識別準確率的抽取方法,本發明通過下述技術方案予以實現:采用人工構建初始觸發詞集合,根據觸發詞集合定義事件類別,針對每類事件構建觸發詞表和包含觸發詞、事件論元角色的事件類別模板;結合文本依存句法,分析、識別和抽取政外領域事件元素。完成單文本預處理操作,并基于義原相似性計算并擴展類別事件觸發詞;將滿足相似度的閾值的句子作為候選事件句。篩選滿足事件類別模板的事件元素,提取事件句中的實體要素;再按照事件模板將事件元素填充到對應的論元角色中;篩選滿足類別模板的候選事件元素;按事件模板生成事件的結構化描述文件,構建出政外領域事件庫。
技術領域
本發明涉及文本信息提取技術領域,尤其涉及一種互聯網政治外交類新聞事件抽取方法。
背景技術
隨著科技水平日新月異的更新發展,各類新聞數據來源手段層出不窮,導致多源、多品類、異構新聞數據量突飛猛漲。新聞數據作為開源情報重要數據來源具有實時性高、海量等特點。如何從大量非結構化新聞數據中找到想要的關注目標信息,如何在大量非結構化新聞數據中對關注目標進行深層次挖掘、分析、預測等,是各國面對海量新聞數據時進行數據態勢感知、風險預警等重點關注和亟待解決的問題。
非結構化文本類新聞數據進行結構化轉換是新聞數據分析的基礎,目前,針對非結構化文本類新聞數據進行結構化信息提取主要通過:命名實體提取、實體關系提取,事件提取等,其中,命名實體提取、實體關系提取的內容多為初級信息;事件抽取是指從文檔中識別出某個事件發生的時間、地點、事件的參與者等信息,并以結構化的形式呈現出來,形成模板形式的事件場景描述。事件抽取主要把人們感興趣的,用自然語言表達的事件以結構化的形式呈現出來。真正要做到信息關聯、事件關聯分析、預測挖掘等,需要進行更高一層次的信息提取,如事件抽取、主題抽取。
事件抽取是信息抽取領域一個重要的研究方向。目前事件抽取的研究主要有兩類方法:基于模式匹配的方法和機器學習的方法。基于模式匹配的事件抽取是指通過定義好的模式來識別某一類事件和抽取事件相關的元素信息。模式匹配的方法準確率較高(如果模式提取的非常準確),且接近人的思維方式,知識表示直觀、自然,便于推理。但是這種方法往往依賴于具體語言、具體領域及文本格式,可移植性差,需要富有經驗的語言學家才能完成。和基于模式匹配的方法相比,基于機器學習方法的健壯性和靈活性較好,比較客觀,不需要太多的人工干預和領域知識,召回率較高,但由于語料庫規模的影響,數據稀疏問題比較嚴重,準確率較模式匹配的方法低,有時搜索空間很大還會導致巨大的空間開銷,效率不高。針對大量混雜數據中的事件信息,越來越多的學者希望實現特殊事件的自動化發現,獲得大量精度高、機器可閱讀的事件數據,構建出各類結構化事件庫。
正是由于機器學習在政外領域進行抽取時需要大規模的標注語料,同時存在識別率低的問題,本發明擬采用基于模式匹配的方法對政外領域新聞數據進行事件抽取。
類似于對知識進行總結然后形成知識庫一樣,對整個系統起支撐作用。一般來說,基于模式匹配方法的事件抽取是一種規則,模式定義了事件信息抽取的規范。模式的獲取可以通過手工或者自動的方式來設定。通過定義模式,形成最終的模式庫。基于模式匹配的事件信息抽取系統核心模塊是模式獲取和事件信息抽取。在基于模式匹配方法事件抽取過程中,有兩個核心關鍵環節,一是事件觸發詞表的構建,觸發詞表構建的完整性和準確性,對事件的識別起到決定性的作用,因此如何完整的構建觸發詞詞表至關重要。二是事件論元角色內容的填充,一句話中針對同一事件要素類型可能會提取到多個事件要素,如何選取合適的要素進行事件論元內容的填充同樣對事件提取最終結果的準確性會產生深遠的影響。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南電子技術研究所(中國電子科技集團公司第十研究所),未經西南電子技術研究所(中國電子科技集團公司第十研究所)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910937986.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無飛邊一次鍛造成型的結構
- 下一篇:一種坐姿檢測方法及裝置





