[發明專利]一種基于大數據的預檢預修可視化系統有效
| 申請號: | 201811322934.1 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109460393B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 郭淑琴;賈翼;任宏亮 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/13;G06F16/28;G06F16/215 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 預檢 可視化 系統 | ||
1.一種基于大數據的預檢預修可視化系統,其特征在于:所述系統包括智能數據采集模塊、數據清洗預警模塊、數據清洗檢修模塊、高危數據告警模塊、數據快速存儲模塊和GIS數據動態加載模塊;
所述智能數據采集模塊,用于采用數據緩存服務器加數據緩存隊列的方式對不同數據源進行分類,標記,存儲,管理數據的元信息;將采集到的消息送到數據緩存服務器中,根據分布式文件系統中BLOCK的大小設置一個數據文件的臨界值T,緩存服務器用于判斷此文件的大小,對小于T的數據文件添加數據標識,即KEY,如數據文件的大小大于給定的T時,在數據處理完成后直接發送到分布式文件系統;根據標記分存到對應的數據隊列中,直到觸發歸并閾值TH2;
所述數據清洗預警模塊,用于解析數據源,依托算法識別非正常的流量及數據并歸納出相應的過濾規則加以濾除及下游使用;
所述數據清洗檢修模塊,用于利用數據清洗檢修模塊運用數字字典進行數據缺項修正,無效數據剔除;
所述高危數據告警模塊,用于通過建立黑名單的方式運用PLRU算法動態加載更新黑名單數據,通過建立白名單的方式改善PLRU算法的失誤率;
所述高危數據告警模塊中,采用PLRU算法,步驟如下:
1.4.1由一組hash函數W={W1,W2,......Wn}組成,哈希函數的輸出域為X,對于數據源為Q={q1,q2,......qn}中的每一個qi,在W的n個獨立的hash函數映射下得到n個[1,M]之間的數;
1.4.2如果a是輸入對象,那么在進行PLRU算法的時候,則會映射n個數,否則a判定為新對象,在一段檢測時間內,數據流大小服從參數為1,畸變參數為α的帕累托分布;
1.4.3假設遠程服務器集群在測控時間內數據包為K,則PLRU平均每隔J個數據包建立一個新數據標識,并淘汰黑名單底部的某個數據;
1.4.4假定某大流E大小正好等于閾值TH,則在連續J個數據文件中沒有出現大數據文件E的概率服從超幾何分布:當KJ時,E被移除的概率為:
其中
1.4.5根據步驟1.4.3和步驟1.4.4更新黑名單數據庫;
1.4.6由于PLRU算法會有誤報,對已經發現的誤報樣本通過建立白名單來防止誤報;
所述數據快速存儲模塊,用于將數據處理模塊清洗后的標識數據采用一致性hash算法進行存儲;
所述GIS數據可視化模塊,用于將清洗過的合法安全的數據進行動態展示,該模塊封裝了開源庫ECharts,根據數據類型的不同選擇適合本業務的模塊,并將高危數據信息,檢修數據信息展現在前端頁面,從前端進行綜合信息的分析。
2.如權利要求1所述的一種基于大數據的預檢預修可視化系統,其特征在于:所述智能數據采集模塊中,包括以下步驟:
1.1.1利用數據快速存儲模塊的一致性hash算法將數據散列存儲;
1.1.2元信息管理的方式:利用預清洗預警模塊識別流量攻擊、網絡爬蟲和流量作弊;并將缺失標識后的數據送入數據清洗檢修模塊,標記后的高危數據送入惡意數據告警模塊;
1.1.3利用關系型數據庫構建黑白名單數據庫,并將1.1.2標記的元信息寫入關系型數據庫中。
3.如權利要求2所述的一種基于大數據的預檢預修可視化系統,其特征在于:所述數據清洗預警模塊中,利用步驟1.1.3黑白名單數據庫決策數據流向;進行步驟1.1.2元數據的歸并。
4.如權利要求1~3之一所述的一種基于大數據的預檢預修可視化系統,其特征在于:所述數據清洗檢修模塊中,包括以下步驟:
1.3.1在清洗預警模塊中,表現為空單元格或顯示為NAN,N/A或None,對于可能包含有意義的缺失數據的分類列,創建一個新的分類,稱作Misssing,然后像普通列一樣處理;
1.3.2在步驟1.3.1中,如若需要典型值,則將預修的數據轉化為有意義的數值,如取業務數據的中位數。
5.如權利要求1~3之一所述的一種基于大數據的預檢預修可視化系統,其特征在于:所述數據快速存儲模塊中,包括以下步驟:
1.5.1引入關系型數據庫用于存儲小數據文件合并過程產生的元數據;
1.5.2通過在機器IP或主機名的后面添加編號或端口號來獲取當前處理服務器的哈希值HS={hs1,hs2,……,hsn},并將HS集合映射為空間的閉環結構;
1.5.3將消息隊列緩存服務器的窗口數據取出放入待合并的集合G={g1,……g2,gn},n表示待合并文件的數目,gi表示待合并的第i個數據文件,對滿足智能數據采集模塊的觸發條件的數據文件進行1.5.4操作;
1.5.4將觸發TH2的數據文件從滑動窗口Wn中取出,采用多線程對Wn進行歸并操作,將合并后的數據上傳到分布式存儲系統,同時將歸并操作產生的元信息存儲到關系型數據庫中;
1.5.5合并過程中產生的第i個數據文件的元信息Di寫入關系型數據庫,其中Di={f1,f2,……,fn},其中fi是元信息集合的數據特征;
1.5.6當客戶端發送讀取小數據文件消息隊列的請求,訪問關系型數據庫,得到數據文件的元信息Di;
1.5.7根據Di中的特征字段訪問分布式文件系統小文件數據所在的大數據文件;
1.5.8根據大數據文件中的特征字段解析出相應的小數據文件;
1.5.9給每一個數據文件添加字段標識F,記錄數據文件的訪問頻率;
1.5.10采用了將高頻數據文件緩存在硬盤熱快,根據對數據文件的附加字段進行判斷是否在文件緩存服務器的硬盤上,直接讀取數據文件緩存服務器中讀取該數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811322934.1/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





