[發(fā)明專利]基于對比學習的加密流量分類方法及裝置有效
| 申請?zhí)枺?/td> | 202210289814.6 | 申請日: | 2022-03-23 |
| 公開(公告)號: | CN114386079B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設計)人: | 趙子一;安常青;張程遠;王會;喻濤;王繼龍 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 單冠飛 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 對比 學習 加密 流量 分類 方法 裝置 | ||
本發(fā)明提出一種基于對比學習的加密流量分類方法及裝置,其中方法包括,獲取加密流量數據,并對加密流量數據進行預處理,得到預處理后的數字序列;對數字序列進行數據增強,得到數字序列對應的增強樣本;基于對比學習方法設計編碼器,利用訓練好的編碼器對所述增強樣本進行特征提取得到增強樣本對應的表征向量;將表征向量輸入分類器中進行分類,得到表征向量預測的最大概率以及最大概率對應的標簽;通過表征向量預測的最大概率以及最大概率對應的標簽對加密流量數據進行分類。本申請保證了表征向量包含更多的關鍵特征更少的低價值特征,使得表征向量更加具有魯棒性,更好地指導分類器的訓練,從而得到更好的分類效果。
技術領域
本申請涉及計算機網絡管理和網絡安全技術領域,尤其涉及基于對比學習的加密流量分類。
背景技術
流量分類的目的是將流量按照某種粒度的標簽進行分類。高效準確的流量分類技術對于網絡管理和惡意軟件跟蹤都是很有必要的。最開始,有兩種方法可以解決這個問題:第一種是基于端口號的匹配。可惜的是,隨著動態(tài)端口分配技術的出現,這種方法的準確率大幅下降。第二種是深度包檢測(DPI)技術。這種技術主要是通過數據包內容的關鍵字或者模式串匹配來實現流量分類的。但是隨著網絡技術的發(fā)展,尤其是以HTTPS為代表的流量加密技術的出現和普及,加密流量開始成為了網絡流量的主要成分,DPI技術也開始失效。因為已經加密后的數據包是很難提取出具有代表性的關鍵字和模式串的。
最近幾年,一些研究者嘗試利用機器學習方法來解決加密流量分類的問題。雖然這些方法都很有效,但是這些方法都十分依賴特征工程。特征工程需要耗費大量的人力和時間。為了削弱對特征工程的依賴,研究者開始將目光投向深度學習。深度學習可以自動提取特征,然而這種特征提取是沒有明確控制的。所謂“沒有明確控制”在這里指的是這些模型雖然可以提取特征,但是并沒有對特征進行進一步的篩選和過濾,導致可能有低價值的特征被保留了下來。這些低價值的特征可能會誤導分類器的訓練進而對分類器的最終效果產生負面影響。
因此,有必要提出一種方法,該方法在提取特征的同時也會對特征進行過濾和篩選,保證留下的特征更多是能夠反映數據本質的特征,從而加快分類器的訓練并提升分類效果。
發(fā)明內容
本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于對比學習的加密流量分類方法,用于解決傳統(tǒng)的深度學習方法在對加密流量數據做特征提取時無法對特征進行篩選和過濾,從而降低表征向量的魯棒性,并進一步影響分類器的學習效率和分類效果的問題。
本發(fā)明的第二個目的在于提出一種基于對比學習的加密流量分類裝置。
本發(fā)明的第三個目的在于提出一種計算機設備。
本發(fā)明的第四個目的在于提出一種計算機可讀存儲介質。
為達上述目的,本發(fā)明第一方面實施例提出了一種基于對比學習的加密流量分類方法,包括:獲取加密流量數據,并對所述加密流量數據進行預處理,得到預處理后的數字序列;對所述數字序列進行數據增強,得到所述數字序列對應的增強樣本;基于對比學習方法設計編碼器,利用訓練好的編碼器對所述增強樣本進行特征提取得到所述增強樣本對應的表征向量;將所述表征向量輸入訓練好的分類器中進行分類,得到所述表征向量預測的最大概率以及最大概率對應的標簽;通過所述表征向量預測的最大概率以及最大概率對應的標簽對所述加密流量數據進行分類。
另外,根據本發(fā)明上述實施例的基于對比學習的加密流量分類方法還可以具有以下附加的技術特征:
進一步地,在本發(fā)明的一個實施例中,其特征在于,所述獲取加密流量數據,并對所述加密流量數據進行預處理,得到預處理后的數字序列,包括以下步驟:
將所述加密流量數據按照數據流粒度進行分割;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210289814.6/2.html,轉載請聲明來源鉆瓜專利網。





