[發明專利]一種基于特征強相關的網絡流量分類方法在審
| 申請號: | 201910198841.0 | 申請日: | 2019-03-15 |
| 公開(公告)號: | CN110009005A | 公開(公告)日: | 2019-07-12 |
| 發明(設計)人: | 張登銀;吳思遠;丁飛;趙莎莎;張恩軒;郭詩源 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡流量分類 強相關 互信息計算 冗余度 多維特征向量 啟發式搜索 迭代計算 分類結果 分類模型 分類目標 分類效率 特征提取 特征向量 特征選擇 訓練過程 學習器 構建 集合 取出 分類 響應 保證 | ||
本發明提出一種基于特征強相關的網絡流量分類方法,包括以下4個步驟:輸入需要訓練的數據,對輸入數據進行特征提取,形成一個多維特征向量集合;利用特征與響應變量之間的互信息計算特征之間的相關性;根據互信息計算特征之間的冗余度,并通過迭代計算選出得分最高的特征作為最終的特征向量;根據分類目標構建基于特征強相關的網絡流量分類模型并得到分類結果。本發明能夠充分利用特征之間的相關性,在學習器訓練過程中提取出相關性最大冗余度最小的特征,在相同的分類模型下,能夠在保證分類精度的前提下有效提升分類效率,解決現有基于啟發式搜索的特征選擇方法未考慮特征之間相關性導致的不足。
技術領域
本發明涉及數據處理和機器學習,特別涉及基于特征強相關的網絡流量分類方法。
背景技術
隨著網絡技術的發展,網絡中的流量增長十分迅速。然而,在促進網絡進一步深化發展的同時,也帶來了很多的問題。不斷擴大的數據規模以及日益增多的應用類型會導致網絡資源的利用率下降。有些鏈路的吞吐量大,而有些鏈路幾乎處于閑置狀態,這將導致網絡資源的利用率下降。
因此,在過去幾年中,網絡流量的分類技術已經引起越來越多的關注。從安全角度來看,快速識別惡意流量將有助于安全控制和隔離攻擊者。從QoS的角度來看,不同流量的準確分類有助于利用網絡資源識別應用程序。此外,網絡運營商可以跟蹤不同應用的增長情況相應的提供帶寬,用來適應用戶群的不同需求。
特征選擇是“數據預處理”的一個重要的過程,在實際的機器學習任務中,在獲得數據后通常先進行特征選擇,然后再進行訓練。我們經常在真實的任務中遇到維數災難的問題,這是由于特征值的屬性太多導致的,如果可以選擇一些重要的特征,使得訓練的過程中只需要一部分用來建模的特征,維數災難的問題將會極大的減少。去掉相關的特征將會極大的減少學習器的難度,這會使學習器的訓練時間和效率都會有所提升。
發明內容
發明目的:為解決上述技術問題,本發明提出一種基于特征強相關的網絡流量分類方法。該方法利用特征強相關作為參數評估來源,利用降維的方法對特征進行了處理,因此可以對多分類場景下的網絡流量進行快速識別。
技術方案:為實現上述技術效果,本發明提供的技術方案為:
一種基于特征強相關的網絡流量分類方法,包括步驟:
步驟一:利用特征與響應變量之間的互信息獲得預先提取的特征之間的相關性;
步驟二:確定特征之間的相關性,根據特征之間的相關性確定特征之間的冗余度,并根據特征之間的冗余度獲得每個特征的得分并確定得分最高的特征;按照預先設定的次數m次迭代確定m個得分最高的特征作為最終的特征向量;
步驟三:根據分類目標構建分類模型并得到特征強相關網絡流量分類結果。
進一步地,所述步驟二中利用特征與響應變量之間的互信息獲得特征之間的相關性,具體過程為:
假定X和Y表示兩個隨機變量,則特征與響應變量之間的互信息公式如下所示:
其中,ΩX和ΩY分別是隨機變量X和Y的樣本空間,p(x,y)是聯合概率密度函數,p(x)和p(y)是邊緣概率密度函數。
特征的相關性RS計算公式為:
其中,c∈C={+1,-1}表示類變量,S表示數據的特征向量集F的子集,fi為特征向量集F中的一個特征向量。
進一步地,所述步驟三中根據特征之間的相關性確定特征之間的冗余度的公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910198841.0/2.html,轉載請聲明來源鉆瓜專利網。





