[發明專利]基于群智網絡測量數據的高延遲異常檢測方法及系統有效
| 申請號: | 201811354840.2 | 申請日: | 2018-11-14 |
| 公開(公告)號: | CN109587000B | 公開(公告)日: | 2020-09-15 |
| 發明(設計)人: | 李揚;孫嘉辰;黃聞光;田曉華;王新兵 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26 |
| 代理公司: | 上海漢聲知識產權代理有限公司 31236 | 代理人: | 莊文莉 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 網絡 測量 數據 延遲 異常 檢測 方法 系統 | ||
1.一種基于群智網絡測量數據的高延遲異常檢測方法,其特征在于,包括:
數據預處理步驟,包括:
步驟11:對原始數據集進行特征工程,去除異常值與缺失值,并將原始數據統一進行數值化與離散化;
步驟12:將包含相同特征的原始數據聚類為一個實例,計算對應權重并打上標簽,作為輸入決策樹模型的基本單位;
異常挖掘步驟,包括:
步驟21:將預處理后的原始數據集隨機采樣生成多個子數據集,并對每個子數據集進行CART決策樹建模得到子樹;
步驟22:基于每個子樹的拓撲信息與節點信息進行高延遲異常規則挖掘;
步驟23:基于樹節點的樣本子空間的網絡延遲狀況,對每條規則進行標定及置信度評分;
步驟24:將所有子樹的規則挖掘結果進行合并,生成最終的網絡高延遲異常檢測結果;
步驟12中,實例的權重計算取決于原始數據子空間中網絡延遲的標準差,標準差越大表示實例的可靠度越低,因此將標準差的倒數作為實例的權重;遍歷整個數據集,將特征相同的樣本聚類為一個實例,并計算實例樣本空間中的RTT平均值及標準差,若RTT小于160,標準差小于100,則將此實例標定為正常,否則標定為異常,對于每個實例,將其樣本空間的RTT標準差的倒數作為權重并設置權重上限為1;
步驟21包括:
使用可放回采樣隨機生成子數據集,在CART決策樹的生成過程中,輸入為與網絡延遲信息打包上傳的其他信息,輸出為網絡延遲狀態是否正常;樹節點分裂隨機挑選部分特征搜尋最佳分裂點,并將CART決策樹生成至最大深度;CART決策樹的節點分裂過程為二分,針對離散特征和連續特征進行分別處理:對連續特征尋找最佳分裂閾值,將大于閾值的樣本和小于閾值的樣本分開;對離散特征尋找最佳分裂特征數值,將等于特征數值的樣本和不等于特征數值的樣本分開;
步驟22包括:
基于CART決策樹的樹狀結構,從根節點出發到達異常節點的每一條路徑即代表一條潛在網絡異常規則,利用路徑中每個樹節點的分裂特征描述異常規則,整個過程遍歷所有除根節點之外的樹節點進行規則挖掘,如果樹節點的樣本子空間為正常,則跳過,若樣本子空間為異常,則回溯樹節點的所有父節點并將其包含的分裂特征作為網絡異常規則;
步驟23包括:
根據網絡異常規則中根節點與終節點的基尼差值以及終節點所包含樣本子空間的權重標準差計算該條網絡異常規則的置信度,置信度越高代表此條網絡異常規則所代表的異常可信度越高;
步驟24包括:
遍歷所有子樹,將相同網絡異常規則進行歸并,計算平均置信度作為最終結果;將所有異常規則按平均置信度降序排列,即為算法最終結果。
2.一種基于群智網絡測量數據的高延遲異常檢測系統,其特征在于,包括:
數據預處理模塊,包括:
對原始數據集進行特征工程,去除異常值與缺失值,并將原始數據統一進行數值化與離散化;
將包含相同特征的原始數據聚類為一個實例,計算對應權重并打上標簽,作為輸入決策樹模型的基本單位;
異常挖掘模塊,包括:
將預處理后的原始數據集隨機采樣生成多個子數據集,并對每個子數據集進行CART決策樹建模得到子樹;
基于每個子樹的拓撲信息與節點信息進行高延遲異常規則挖掘;
基于樹節點的樣本子空間的網絡延遲狀況,對每條規則進行標定及置信度評分;
將所有子樹的規則挖掘結果進行合并,生成最終的網絡高延遲異常檢測結果;
實例的權重計算取決于原始數據子空間中網絡延遲的標準差,標準差越大表示實例的可靠度越低,因此將標準差的倒數作為實例的權重;遍歷整個數據集,將特征相同的樣本聚類為一個實例,并計算實例樣本空間中的RTT平均值及標準差,若RTT小于160,標準差小于100,則將此實例標定為正常,否則標定為異常,對于每個實例,將其樣本空間的RTT標準差的倒數作為權重并設置權重上限為1;
所述異常挖掘模塊:
使用可放回采樣隨機生成子數據集,在CART決策樹的生成過程中,輸入為與網絡延遲信息打包上傳的其他信息,輸出為網絡延遲狀態是否正常;樹節點分裂隨機挑選部分特征搜尋最佳分裂點,并將CART決策樹生成至最大深度;CART決策樹的節點分裂過程為二分,針對離散特征和連續特征進行分別處理:對連續特征尋找最佳分裂閾值,將大于閾值的樣本和小于閾值的樣本分開;對離散特征尋找最佳分裂特征數值,將等于特征數值的樣本和不等于特征數值的樣本分開;
所述異常挖掘模塊:
基于CART決策樹的樹狀結構,從根節點出發到達異常節點的每一條路徑即代表一條潛在網絡異常規則,利用路徑中每個樹節點的分裂特征描述異常規則,整個過程遍歷所有除根節點之外的樹節點進行規則挖掘,如果樹節點的樣本子空間為正常,則跳過,若樣本子空間為異常,則回溯樹節點的所有父節點并將其包含的分裂特征作為網絡異常規則;
根據網絡異常規則中根節點與終節點的基尼差值以及終節點所包含樣本子空間的權重標準差計算該條網絡異常規則的置信度,置信度越高代表此條網絡異常規則所代表的異常可信度越高;
遍歷所有子樹,將相同網絡異常規則進行歸并,計算平均置信度作為最終結果;將所有異常規則按平均置信度降序排列,即為算法最終結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811354840.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





