[發明專利]一種基于自適應特征分類的加密流量識別方法、存儲器和處理器在審
| 申請號: | 202110911992.3 | 申請日: | 2021-08-10 |
| 公開(公告)號: | CN113642017A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 王藝霖;杜佳佳;王安平 | 申請(專利權)人: | 克拉瑪依和中云網技術發展有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06K9/62;G06N3/12;G06N20/00 |
| 代理公司: | 南京九致知識產權代理事務所(普通合伙) 32307 | 代理人: | 齊棠 |
| 地址: | 834000 新疆維吾爾自治*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 特征 分類 加密 流量 識別 方法 存儲器 處理器 | ||
本發明針提供了一種自適應特征分類的加密流量識別方法、存儲器和處理器,包括以下步驟:數據集采集:抓取網絡流量,生成會話,對流量過濾分流獲取原始實驗數據集;數據集預處理:讀取數據流,截斷數據,并進行歸一化處理;平衡數據集:采用ADASYN算法對不平衡數據集進行處理;從特征中提取最優化特征集;識別流量:將最優化特征集輸入機器學習算法,識別目的加密流量。本發明可以消除冗余和不相關特征,增強分類模型的識別能力,高效識別加密流量。
技術領域
本發明涉及網絡安全領域,具體涉及一種基于自適應特征分類的加密流量識別方法、存儲器和處理器。
背景技術
隨著大數據時代的到來,大眾對于數據保護的意識也愈加強烈,半數的在線流量均被加密。對于特定類型的流量,數據加密已經成為保護隱私的重要手段之一。
流量加密在無意間也給網絡安全帶來了新的隱患。加密能夠像隱藏其他信息一樣隱藏惡意流量,從而帶來一系列蠕蟲、木馬和病毒。這意味著加密是一把雙刃劍,保護隱私的同時也讓不法分子有了可乘之機。因此加密流量識別的意義不言而喻。
加密流量的識別目前方法主要有6類:基于有效負載特征字段匹配的識別方法、基于機器學習的方法、基于主機行為的識別方法、基于數據分組分布的方法、基于負載隨機性的方法以及多種策略結合的方法,其中最常用的是基于機器學習的分類方法,但是此方法仍沒有解決加密流量識別中特征選擇存在的度量指標單一和類別不平衡問題,而且加密網絡流量隨時間推移和網絡環境變化而發生網絡流特征和分布變化,導致基于機器學習的分類模型適用性和精度下降,使得泛化能力下降。
發明內容
本發明針對加密流量識別中特征選擇存在的度量指標單一和類別不平衡等缺點,提供了一種自適應特征分類的加密流量識別方法,可以消除冗余和不相關特征,增強分類模型的識別能力,高效識別加密流量。
一方面,本發明的基于自適應特征分類的加密流量識別方法,包括以下步驟:
S100、數據集采集:抓取網絡流量,生成會話,對流量過濾分流獲取原始實驗數據集;
S200、數據集預處理:讀取數據流,截斷數據,并進行歸一化處理;
S300、平衡數據集:采用ADASYN算法對不平衡數據集進行處理;
S400、從特征中提取最優化特征集;
S500、識別流量:將最優化特征集輸入機器學習算法,識別目的加密流量。
具體的,所述特征采用堆棧式自動編碼器提取。
具體的,所述最優化特征集采用啟發式搜索方法自動提取。
具體的,機器學習算法模型是基于遺傳算法改進的隨機森林模型。
具體的,所述算法模型建立包括以下步驟:用訓練集構建決策樹,組成原始的決策樹集合;從原始的決策樹集合中篩選出性能更優的決策樹,構成新的決策樹集合;利用遺傳算法迭代多次,得到最優的隨機森林模型。
另一方面,本發明還提供一種存儲器,用于存儲軟件,其中,所述軟件用于執行上述的方法。
另一方面,本發明還提供一種處理器,用于執行軟件,其中,所述軟件用于執行上述方法。
與現有技術相比,本發明具有如下有益效果:本發明解決了由于樣本類別不平衡造成模型欠擬合或過擬合的問題,識別率高,誤報率低,適用于對數據集的類別不平衡性和特征提取困難的加密流量識別。
附圖說明
圖1為本發明的流程圖。
具體實施方式
需要說明的是,在不沖突的情況下,本發明中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本發明。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于克拉瑪依和中云網技術發展有限公司,未經克拉瑪依和中云網技術發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110911992.3/2.html,轉載請聲明來源鉆瓜專利網。





