[發明專利]一種基于文本語料的涉恐事件實體屬性抽取系統及方法有效
| 申請號: | 201911340904.8 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111026885B | 公開(公告)日: | 2023-09-01 |
| 發明(設計)人: | 曹文斌;楊濤;凡友榮;姜國慶;彭如香 | 申請(專利權)人: | 公安部第三研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/31;G06F40/295;G06F40/30 |
| 代理公司: | 上海申新律師事務所 31272 | 代理人: | 吳軼淳 |
| 地址: | 200030*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 語料 事件 實體 屬性 抽取 系統 方法 | ||
本發明涉及涉恐事件提取領域,具體涉及一種基于文本語料的涉恐事件實體屬性抽取系統及方法,包括:一數據采集模塊,所述數據采集模塊用以采集一網站網頁的文本數據,一數據處理模塊,用以對所述文本數據進行清洗;一文本分類模塊,所述文本分類模塊根據所述文本訓練模塊中的訓練模型對清洗后的所述文本數據進行分類;一文本分解模塊,用以對分類后的所述文本數據進行分解;一文本提取模塊,用以對分解后的所述文本數據進行信息提取;一信息解析模塊,用以對提取的所述信息進行解析。本發明涉恐領域事件實體屬性的提取準確率、召回率更高,對同領域的文本預料具備可復用性,減少同領域模型訓練的人工標注工作量。
技術領域
本發明涉及涉恐事件提取領域,尤其涉及一種基于文本語料的涉恐事件實體屬性抽取系統及方法。
背景技術
近年來,社會安全和反恐形勢日趨復雜,警方不僅要加強對犯罪分子的控制,還要竭力識別出對國家個人民生命財產安全產生潛在威脅的危險分子,防患于未然,為了情報部門更好更快地收集到具有涉恐性質的事件文本,現需要一種能夠快速從眾多文本數據中提取涉恐事件實體屬性抽取的方法。而現有技術下通常采用根據上下文表征詞向量的特征來進行事件實體屬性抽取,其具體核心步驟包括:
人工標注:對訓練文本語料進行人工標注,標注文章中含有的事件實體屬性;
文本表示:對訓練文本數據進行詞向量化表示,為后面的模型訓練做好準備;
模型訓練:采用雙向遞歸神經網絡對人工標注的數據進行模型訓練;
模型預測:用訓練好的模型對其它文本數據進行事件實體屬性抽取。
現有技術中存在通用領域的抽取技術遷移能力較差,模型訓練需要大量的人工標注等問題。
發明內容
為了解決以上技術問題,本發明提供了一種基于文本語料的涉恐事件實體屬性抽取系統及方法。
本發明所解決的技術問題可以采用以下技術方案實現:
一種基于文本語料的涉恐事件實體屬性抽取系統,包括:
一數據采集模塊,所述數據采集模塊用以采集一網站網頁的文本數據;
一數據處理模塊,所述數據處理模塊與所述數據采集模塊連接,用以對所述文本數據進行清洗得到清洗后的所述文本數據;
一文本分類模塊,連接所述數據處理模塊和一文本訓練模塊,所述文本分類模塊根據所述文本訓練模塊中的訓練模型對清洗后的所述文本數據進行分類,得到分類后的所述文本數據;
一文本分解模塊,與所述文本分類模塊連接,用以對分類后的所述文本數據進行分解得到分解后的所述文本數據;
一文本提取模塊,與所述文本分解模塊連接,用以對分解后的所述文本數據進行信息提取得到提取后的所述信息;
一信息解析模塊,與所述文本提取模塊連接,用以對提取后的所述信息進行解析得到解析后的所述信息;
一事件提取模塊,與所述信息解析模塊連接,用于對解析后的所述信息進行提取得到一涉恐事件知識庫。
優選的,所述文本數據的清洗包括對雜亂數據和非涉恐文本數據的去除。
優選的,所述非涉恐文本數據通過一正則表達式進行區分,所述正則表達式為使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。
優選的,所述文本訓練模塊基于樸素貝葉斯算法進行訓練和交叉驗證得到所述訓練模型,所述樸素貝葉斯算法為基于貝葉斯定理與特征條件獨立假設的分類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于公安部第三研究所,未經公安部第三研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911340904.8/2.html,轉載請聲明來源鉆瓜專利網。





