[發明專利]基于海量數據全文檢索的行為異常識別方法及裝置有效
| 申請號: | 202011502950.6 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112579728B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 王虎;何衛;趙躍東 | 申請(專利權)人: | 成都民航西南凱亞有限責任公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/35;G06F18/214;G06N20/00 |
| 代理公司: | 成都誠中致達專利代理有限公司 51280 | 代理人: | 曹宇杰 |
| 地址: | 611137 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 海量 數據 全文 檢索 行為 異常 識別 方法 裝置 | ||
一種基于海量數據全文檢索的行為異常識別方法及裝置,方法包括步驟;接收分布式應用服務集群發送的日志,并進行暫存;將暫存的日志通過消息通道發送給訂閱端,訂閱端實時消費發來的消息,將實時數據和離線數據存入數據存儲模塊;通過機器學習方式將實時數據輸入異常檢測模型進行異常檢測學習訓練,生成異常識別中間結果;結合異常維度規則信息,根據異常識別中間結果以及異常用戶設備ID對應的離線數據,通過全文檢索與統計算法計算輸出異常識別結果數據。將無監控學習與有監控學習相結合,提高了分析的靈活度,加強了異常識別的合理性,適用于分布式高頻度非結構化數據異常行為自動分析場景,能做到PB級海量數據異常識別并及時止損。
技術領域
本發明涉及異常行為自動分析技術,尤其與一種基于海量數據全文檢索的行為異常識別方法及裝置有關。
背景技術
隨著企業業務的不斷發展,分布在全國及全球的用戶時刻產生大量的非結構化數據,對企業中這些非結構數據進行異常識別分析的相關技術在當前得到了較為廣泛的應用。
目前,主流異常分析方法基本是基于某一種算法和較為有限的手段對數據進行異常分析,分析結果的準確性難以評估,根據模型自動分析的結果需要人工對相關數據進行核實才能確認異常屬實,分析手段缺乏靈活性,當分析需求變更時存在可能重新開發的諸多問題。
發明內容
本發明主要針對上述相關現有技術的不足與缺陷,提供一種基于海量數據全文檢索的行為異常識別方法及裝置,通過部署采集日志、暫存日志、訂閱日志、存儲實時數據及離線數據,并利用機器學習進行異常中間結果識別,利用全文檢索與統計算法計算輸出異常識別結果數據,并提供可視化結果展示,準確性更好,與具體業務的結合具有更好的靈活性,形成一套適合多種復雜業務邏輯的非結構化數據場景下的異常識別分析平臺,能做到PB級海量數據異常識別。
為了實現上述目的,本發明采用以下技術:
一種基于海量數據全文檢索的行為異常識別方法,包括步驟;
接收從分布式應用服務集群發送的用戶操作日志,并對接收的日志進行暫存;
將暫存的日志通過消息通道發送給消息訂閱端,消息訂閱端用于實時消費發來的消息,并通過配置索引策略將數據實時解析并存入數據存儲模塊作為實時數據,同時通過配置索引策略將數據按天切割為離線數據存入數據存儲模塊;
通過機器學習方式將數據存儲模塊存儲的實時數據和/或離線數據輸入異常檢測模型進行異常檢測學習訓練,生成異常識別中間結果;異常識別中間結果包括預測出的異常用戶設備ID及對應的操作特征異常數據;
結合預設的異常維度規則信息,根據異常識別中間結果以及數據存儲模塊中存儲的與異常用戶設備ID對應的離線數據,通過全文檢索與統計算法計算輸出異常識別結果數據。
進一步,數據存儲模塊包括由Elasticsearch集群構建的實時數據單元和離線數據單元,實時數據單元用于存儲實時數據,離線數據單元用于存儲離線數據;
數據存儲模塊采用Elasticsearch?ILM索引生命周期管理功能通過以天為單位的策略將離線數據劃分為熱、暖、冷、刪除四個階段進行管理;
數據存儲模塊采用X-Pack插件的Kibana完成對實時數據和離線數據的管理。
進一步,通過機器學習方式將數據存儲模塊存儲的數據輸入異常檢測模型進行異常檢測學習訓練,生成異常識別中間結果,包括步驟:
通過創建流水線及異常檢測器,生成多指標異常檢測任務;
多指標異常檢測任務調用算法庫及相應異常檢測模塊的接口,結合指數平滑模型及融合聚類、時序分解、貝葉斯分布建模和相關性分析算法,對實時數據建立異常檢測模型,從時間、地點、人員、交互類型及交互的內容多個維度對輸入的實時數據進行無監控學習,生成包含異常結果的索引數據,作為預測的異常識別中間結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都民航西南凱亞有限責任公司,未經成都民航西南凱亞有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011502950.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頁面的拼裝方法及裝置
- 下一篇:一種廢料快速剪切液壓控制系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





