[發明專利]一種基于雙通道卷積神經網絡的加密流量分類方法有效
| 申請號: | 201910509860.0 | 申請日: | 2019-06-13 |
| 公開(公告)號: | CN110197234B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 曾雪梅;陳興蜀;岳亞偉;何濤;王麗娜;文奕;韓珍輝 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;H04L29/06 |
| 代理公司: | 成都禾創知家知識產權代理有限公司 51284 | 代理人: | 裴娟 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙通道 卷積 神經網絡 加密 流量 分類 方法 | ||
本發明公開了一種基于雙通道卷積神經網絡的加密流量分類方法,基于網絡數據包包頭屬性和基于時間分段的低階統計特征兩個維度對網絡流進行表示,然后通過雙通道卷積神經網絡,同時從兩種網絡流表示中學習加密流量特征,實現對加密流量上承載的應用類型進行分類。本發明在不需要專家知識介入的情況下,充分利用數據包頭屬性和流量統計特征在局部和整體上的優勢,自動從兩個維度學習流量特征,提高加密網絡流量分類精度;且僅利用數據包頭部中的字段信息,泛化能力強,不會違背數據的機密性和隱私保護策略。
技術領域
本發明屬于網絡安全與信息技術領域,具體涉及一種基于雙通道卷積神經網絡的加密流量分類方法。
背景技術
網絡安全和隱私保護日益成為企業和網絡用戶關注熱點,越來越多的企業選擇VPN等來保護企業數據傳輸的安全,網絡用戶采用各種加密和匿名通信等技術來保護網絡終端和個人隱私安全。而這些技術也被不法分子用于從事非法網絡活動,以逃避網絡安全監測。流量偽裝與混淆技術被廣泛使用,協議封裝、流量代理等方法將一種加密流量封裝在另一種加密流量中,改變了加密流量的原始特性。載體流量通常選擇被廣泛使用的協議類型,或是網絡安全設備無法識別的流量類型。
基于傳統機器學習方法的流量分類方法使用人工提取的特征,特征的有效性依賴專家知識。當加密流量統計特征發生變化時,基于人工提取特征的方法需重新對流量進行人工分析以尋找新的分類特征,靈活性和時效性差。
近年來深度學習開始應用到包括加密流量在內的網絡流量分類中,以克服傳統機器學習方法對特征工程的依賴。在基于深度學習的流量分類方法中,一個主要影響因素是輸入數據。不同的流包含的數據包數量不同、持續的時間長度不同,在選擇使用深度學習方法來解決加密流量分類問題時,并不能簡單地按照和圖像處理一樣的方式,直接把網絡流作為輸入,需要對原始網絡流量進行編碼和取舍等預處理操作。輸入數據中包含的信息量很大程度上決定了算法從流量中學習到的特征的有效性。把網絡流量的哪些信息、以什么形式推送給深度學習算法,是將深度學習方法應用在流量分類任務時面臨的首要問題,即網絡流量的表示問題。
在現有的基于深度學習的流量分類研究中,根據對網絡流量表示方式的不同,主要有基于原始數據、基于統計特征和基于數據包時序三種。基于原始數據的方法以數據包或流的包頭與有效負載的字節二進制表示作為深度學習的輸入。然而數據包的頭部中存在與訓練數據集相關的IP地址和端口信息,負載數據中協議握手階段的明文信息往往也與訓練數據集相關,容易導致模型泛化能力差,難以在真實網絡環境中應用。而且,負載特征的使用還會違背用戶隱私策略。基于統計特征的方法是把人工提取的流量統計特征作為輸入,使用深度學習方法分類流量。但這種方法僅使用統計信息表征網絡流量,可能導致流量中隱含的許多區分性信息丟失,且沒有充分發揮深度學習的學習能力,其分類有效性將受輸入特征有效性的影響。基于數據包時序的方法是將一條流的前多個數據包的屬性特征按時間序列排序,然后利用深度學習方法提取特征和分類。但由于網絡環境中的一些常見的網絡事件會改變數據包級的特征分布,例如網絡流量中常見的重傳數據包,重復的ACK包,亂序數據數據包等。基于統計的方法可能能夠免疫于這些不相關的數據包,但基于數據包時序的方法受這個問題的影響可能較大。因此,需要解決在盡可能保留網絡流量數據原始特性的前提下,將任意長度的網絡流處理為滿足擬采用的深度學習算法要求的輸入的問題。
另外,現有這些解決方案中,均使用單一通道結構,以某一種形式的網絡流表示作為模型輸入。如前所述,輸入很大程度決定了輸出,某一種方式的網絡流表示容易存在僅表達了網絡流量某一方面的特性(如局部細節特征),而缺少對其他方面特性的表征(如全局特性)的問題。為提升分類器的分類準確性,需要從多個不同的網絡流表示中學習特征。而不同網絡流表示通常是通過基于不同的維度或粒度的網絡流預處理方法形成,存在尺寸不一致的問題。因此,需要解決從多個不同尺寸的網絡流表示中同時學習特征的問題,即如何把不同尺寸的網絡流表示作為分類模型的輸入,并構建網絡流量分類模型。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910509860.0/2.html,轉載請聲明來源鉆瓜專利網。





