[發(fā)明專利]一種基于文本語料的涉恐事件實體屬性抽取系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 201911340904.8 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111026885B | 公開(公告)日: | 2023-09-01 |
| 發(fā)明(設計)人: | 曹文斌;楊濤;凡友榮;姜國慶;彭如香 | 申請(專利權(quán))人: | 公安部第三研究所 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/31;G06F40/295;G06F40/30 |
| 代理公司: | 上海申新律師事務所 31272 | 代理人: | 吳軼淳 |
| 地址: | 200030*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 語料 事件 實體 屬性 抽取 系統(tǒng) 方法 | ||
1.一種基于文本語料的涉恐事件實體屬性抽取系統(tǒng),其特征在于,包括:
一數(shù)據(jù)采集模塊,所述數(shù)據(jù)采集模塊用以采集一網(wǎng)站網(wǎng)頁的文本數(shù)據(jù);
一數(shù)據(jù)處理模塊,所述數(shù)據(jù)處理模塊與所述數(shù)據(jù)采集模塊連接,用以對所述文本數(shù)據(jù)進行清洗得到清洗后的所述文本數(shù)據(jù);
一文本分類模塊,連接所述數(shù)據(jù)處理模塊和一文本訓練模塊,所述文本分類模塊根據(jù)所述文本訓練模塊中的訓練模型對清洗后的所述文本數(shù)據(jù)進行分類,得到分類后的所述文本數(shù)據(jù);
一文本分解模塊,與所述文本分類模塊連接,用以對分類后的所述文本數(shù)據(jù)進行分解得到分解后的所述文本數(shù)據(jù);
一文本提取模塊,與所述文本分解模塊連接,用以對分解后的所述文本數(shù)據(jù)進行信息提取得到提取后的所述信息;
一信息解析模塊,與所述文本提取模塊連接,用以對提取后的所述信息進行解析得到解析后的所述信息;
一事件提取模塊,與所述信息解析模塊連接,用于對解析后的所述信息進行提取得到一涉恐事件知識庫;
所述非涉恐文本數(shù)據(jù)通過一正則表達式進行區(qū)分,所述正則表達式為使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串;
所述文本訓練模塊基于樸素貝葉斯算法進行訓練和交叉驗證得到所述訓練模型,所述樸素貝葉斯算法為基于貝葉斯定理與特征條件獨立假設的分類方法;
所述文本分類模塊用于對清洗后的所述文本數(shù)據(jù)進行分詞、去停詞庫和隨機生成訓練測試驗證集的數(shù)據(jù)預處理工作,然后依據(jù)所述訓練模型對預處理后的所述文本數(shù)據(jù)進行涉恐事件文本和非涉恐事件文本分類;
所述文本分解模塊將所述涉恐事件文本分解成標題、發(fā)布信息、新聞主體三部分,并運用一信息檢索數(shù)據(jù)挖掘的常用加權(quán)技術(shù)算法抽取所述涉恐事件文本中的專有關(guān)鍵詞形成一關(guān)鍵詞庫,然后對所述關(guān)鍵詞庫進行詞性分類得到一帶詞性的涉恐專有詞庫;
所述文本提取模塊包括正則表達式解析、命名實體識別抽取和語義角色分析,所述正則表達式用于對所述涉恐事件文本中涉恐事件發(fā)生時間初步提取,所述命名實體識別用于對所述涉恐事件文本中恐怖組織、事件發(fā)生地點識別的初步提取,所述語義角色分析用于提取所述涉恐事件文本句子中的三元組;
所述信息解析模塊包括主語謂語賓語關(guān)系解析、定語后置動賓關(guān)系解析、人名/地名/機構(gòu)解析和介賓關(guān)系主謂動補解析。
2.根據(jù)權(quán)利要求1所述的一種基于文本語料的涉恐事件實體屬性抽取系統(tǒng),其特征在于,所述文本數(shù)據(jù)的清洗包括對雜亂數(shù)據(jù)和非涉恐文本數(shù)據(jù)的去除。
3.一種基于文本語料的涉恐事件實體屬性抽取方法,應用于權(quán)利要求1-2任意一項所述的一種基于文本語料的涉恐事件實體屬性抽取系統(tǒng),其特征在于,包括:
步驟S1,所述數(shù)據(jù)采集模塊通過所述網(wǎng)站的網(wǎng)頁采集所述文本數(shù)據(jù);
步驟S2,所述數(shù)據(jù)處理模塊接收采集到的所述文本數(shù)據(jù)并對所述文本數(shù)據(jù)進行清洗;
步驟S3,所述文本分類模塊接收清洗后的所述文本數(shù)據(jù)并結(jié)合所述訓練模型對清洗后的所述文本數(shù)據(jù)進行文本分類;
步驟S4,所述文本分解模塊接收分類后的所述文本數(shù)據(jù)并對分類后的所述文本數(shù)據(jù)進行分解;
步驟S5,所述文本提取模塊接收分解后的所述文本數(shù)據(jù)并對分解后的所述文本數(shù)據(jù)進行所述信息提取;
步驟S6,所述信息解析模塊接收提取后的所述信息并對提取的所述信息進行解析;
步驟S7,所述事件提取模塊接收解析后的所述信息并對解析后的所述信息進行提取得到一涉恐事件知識庫。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于公安部第三研究所,未經(jīng)公安部第三研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911340904.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





