[發明專利]網絡流量分類方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010791283.1 | 申請日: | 2020-08-07 |
| 公開(公告)號: | CN112054967A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 關建峰;楊樹杰;劉楊;韓壯;白昊喆;張婉澂 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | H04L12/851 | 分類號: | H04L12/851;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李文清 |
| 地址: | 100876 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡流量 分類 方法 裝置 電子設備 存儲 介質 | ||
本發明實施例提供一種網絡流量分類方法、裝置、電子設備及存儲介質,所述方法包括:獲取基于損失函數訓練后的目標分類模型;基于所述目標分類模型,對待分類流量數據進行分類;其中,所述損失函數基于網絡流量數據中訓練樣本的權重參數確定。本發明實施例通過基于分類模型的訓練樣本權重參數確定損失函數,通過損失函數訓練后的目標分類模型對待分類流量數據進行分類,解決了模型訓練時樣本不平衡的問題和正負樣本比例失衡的問題,保證了小類數據集的分類性能,提供分類結果的準確率。
技術領域
本發明涉及網絡安全技術領域,尤其涉及一種網絡流量分類方法、裝置、電子設備及存儲介質。
背景技術
在眾多的互聯網流量中,各類不同的流量分布并不是均勻的,無論是從是否加密、服務類型還是應用類型等不同的分類粒度角度出發,各個類別均有不同的占比,比如在惡意流量識別的應用中,部分惡意流量屬于小類。但是基于深度學習的網絡流量分類的相關研究中,基本都將訓練樣本符合均勻分布作為基本假設,若在數據類別不平衡的狀態下進行模型的訓練通常會使模型分類結果更加有利于保障占據大量比例的大樣本分類性能,而小樣本的性能容易被忽略。常規分類器都是針對整體任務提供最優解,但是小類數據集的分類任務性能難以得到保證,但往往小類任務是更加需要被關注的對象。
現有技術中針對深度學習領域的網絡流量數據集對數據集不平衡問題的研究相對較少,比如使用隨機采樣技術來對數據集進行平衡處理。隨機采樣來平衡數據集是最為簡單的手段,但前提是假設采樣出來的樣本的數量分布與原本數據集數據分布一致,但顯然在現實中并不成立。這種情況容易犧牲大類數據集中的部分樣本,也給分類結果帶來不穩定因素。
因此,如何提出一種保證小類數據集的分類性能,且分類結果準確的方法,成為亟需解決的問題。
發明內容
本發明實施例提供一種網絡流量分類方法、裝置、電子設備及存儲介質,用以解決現有技術中小類數據集的分類性能不好,分類結果不準確的缺陷,解決了模型訓練時正負樣本比例失衡的問題,保證了小類數據集的分類性能,提供分類結果的準確率。
本發明實施例提供一種網絡流量分類方法,包括:獲取基于損失函數訓練后的目標分類模型;
基于所述目標分類模型,對待分類流量數據進行分類;
其中,所述損失函數基于網絡流量數據中訓練樣本的權重參數確定。
所述損失函數基于網絡流量數據中訓練樣本的權重參數確定,包括:
在所述損失函數中設置所述訓練樣本的權重,所述訓練樣本的權重為預設值。
根據本發明一個實施例的網絡流量分類方法,所述獲取基于損失函數訓練后的目標分類模型之前,包括:
在每一次分類模型訓練過程中,從網絡流量樣本中隨機獲取至少一個流量數據訓練樣本,通過分類模型獲得所述流量數據訓練樣本的分類概率;
基于所述分類概率,通過損失函數訓練所述分類模型,訓練后的分類模型用于下一次分類模型訓練過程中所述分類概率的獲取。
根據本發明一個實施例的網絡流量分類方法,所述方法還包括:
在每一次分類模型訓練過程結束時,確定分類模型訓練次數小于預設分類模型訓練次數后,開始下一輪的分類模型訓練過程;或
在每一次網絡流量分類模型訓練過程結束時,確定當前分類模型訓練次數等于或大于所述分類模型訓練次數后,確定所述網絡流量分類模型訓練過程中訓練的分類模型為所述目標分類模型。
根據本發明一個實施例的網絡流量分類方法,所述從網絡流量樣本中隨機獲取至少一個流量數據訓練樣本之前,所述方法還包括:
對網絡流量數據進行標記;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010791283.1/2.html,轉載請聲明來源鉆瓜專利網。





