[發明專利]一種基于文本處理的異常突發事件檢測方法及系統在審
| 申請號: | 202011103389.4 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112732904A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 桑燕五;呂曉寶;張謙;郎寶暉;王元兵;王海榮 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/216;G06F40/284;G06F40/289 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 竇賢宇 |
| 地址: | 211102 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 處理 異常 突發事件 檢測 方法 系統 | ||
1.一種基于文本處理的異常突發事件檢測方法,其特征在于,包括:
步驟一:接收待處理文本;
步驟二:對接收到的文本進行預處理;
步驟三:對處理過后的文本進行詞頻的統計;
步驟四:提取異常詞并聚類分析;
步驟五:將獲得的異常情況可視化至用戶端界面。
2.根據權利要求1所述的一種基于文本處理的異常突發事件檢測方法,其特征在于,所述步驟一進一步為:
其中,所述接收待處理的文本來源于記錄突發事件的數據庫,且該文本是具有能清楚描述突發事件特征信息的規范性描述語句。
3.根據權利要求1所述的一種基于文本處理的異常突發事件檢測方法,其特征在于,所述步驟二進一步為:
對步驟一中接收到的文本數據進行處理,具體過程為首先,建立用于預處理使用的詞庫數據;其次,利用正則表達式結合詞庫數據進行文本信息的預處理提取;再次,通過利用自然語言處理工具對預處理過的文本進行分詞,以及詞性標注;最后結合分詞結果和標注出的詞性,進一步對文本中的干擾詞匯進行剔除操作;其中所述詞庫數據進一步包括自定義詞庫,以及停用詞庫;所述正則匹配出的文本信息為無干擾性信息的冗余文本數據;所述詞性標注出的詞在過濾的時候遵循規則具有以下特征:停用詞庫中含有的詞;詞性為“數詞”、“量詞”、“助詞”、“時間詞”、“代詞”、“副詞”、“介詞”、“連詞”、“助詞”、“嘆詞”、“形容詞”、“人名詞”、“方位詞”、“語氣詞”、“動詞性語素”、“形式動詞”、“趨向動詞”、“副動詞”、“名詞性語素”、“狀態詞”、“處所詞”、“標點符號”的詞;包含空格、標點符號特殊字符的詞。
4.根據權利要求1所述的一種基于文本處理的異常突發事件檢測方法,其特征在于,所述步驟三進一步為:
使用詞頻-倒排文檔頻次對經過步驟二處理過后的文本數據進行詞頻的統計,并根據統計出的結果,提取出相應的關鍵詞,隨后對經過關鍵詞提取保留的分詞結果進行詞頻統計并將詞頻結果存儲至對應的數據庫中;所述詞頻統計遵循規則滿足分組統計性、唯一性性、疊加性;所述分組統計性進一步為將相同日期、相同突發事件記錄地點、相同突發事件類別中出現的相同詞進行分組統計;所述唯一性進一步為對于同一條突發事件出現多次的詞僅作為一次計入統計數量中;所述疊加性進一步為對于一對表示帶有覆蓋性的描述性詞匯,則將兩者合并到描述性范圍更廣的詞上進行統計;
其中關鍵詞的提取方式為利用TF-IDF的計算方式進一步衡量詞語的重要程度,即:
其中,表示所需計算的詞語在其中一條突發事件中的TF-IDF指標,表示所需計算的詞語在待判定突發事件類別中出現的次數,表示所需計算的詞語在語料庫中出現的次數;所述語料庫為用于描述突發事件的預定數量文本數據。
5.根據權利要求1所述的一種基于文本處理的異常突發事件檢測方法,其特征在于,所述步驟四進一步為:
對步驟三中存入數據庫中的詞頻結果進行讀取,隨后根據預定義的分組依據將讀取到的相同類別詞劃分成一組,接著對分組后的單個詞進行預定義周期段的詞頻疊加,并以此作為該詞當前周期的權重計算依據;根據計算出的權重,判斷一個詞的出現頻率,在權重進行排序后可清楚得出近期異常事件的發生情況,并通過異常詞的聚類分析,進一步確定針對異常事件的描述;
其中所述權重計算方式為:
其中,表示當前周期內近i日的權重,表示i日內的詞頻數量,表示選定周期中n日內的詞頻數量;對每組內描述相同事件的詞進行聚類,其具體做法進一步為每組分別對前N個異常詞進行詞共現分析,構建詞共現矩陣A, Aij表示第i個詞和第j個詞的共現指數,其中共現指數的計算方式為:
其中,表示當前周期內包含詞i的異常突發事件集合,表示當前周期內包含詞j的異常突發事件集合,表示交集,表示并集,表示集合S的元素個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011103389.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種園林植物輸液裝置
- 下一篇:支撐絕緣子及使用該支撐絕緣子的氣體絕緣母線





