[發明專利]數據檢測方法、模型訓練方法、裝置及電子設備在審
| 申請號: | 202210105160.7 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114448699A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 徐鐘豪;王彥磊;謝忱;劉偉 | 申請(專利權)人: | 上海斗象信息科技有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06N20/00;G06K9/62 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 崔振 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 檢測 方法 模型 訓練 裝置 電子設備 | ||
本申請提供一種數據檢測方法、模型訓練方法、裝置及電子設備。方法包括:以I個不同時間長度的時間窗口,從原始流量數據采集得到與I個時間窗口對應的流量數據,I為大于1的整數;通過預設處理算法對流量數據進行預處理,得到與每個時間窗口的流量數據對應的特征向量;將與原始流量數據中的每條流量對應的特征向量輸入經過訓練測試的監督學習模型,由監督學習模型中的M類機器學習模型及N類深度學習模型均對流量數據進行檢測,然后再對得到的M+N個初檢結果進行分析,以確定待測流量數據是否為僵尸網絡流量,有利于提高檢測效率。另外,采用多類模型進行并聯檢測,有利于提高檢測的準確性與可靠性。
技術領域
本申請涉及涉及互聯網技術領域,具體而言,涉及一種數據檢測方法、模型訓練方法、裝置及電子設備。
背景技術
僵尸網絡(Botnet)是指采用一種或多種傳播手段,將大量主機感染bot程序(僵尸程序)病毒,從而在控制者和被感染主機之間所形成的一個可一對多控制的網絡。由于僵尸網絡行為在大多數情況下看起來像正常的網絡行為,若使用僵尸網絡行為進行通信的惡意攻擊,這種情況對安全分析人員構成了挑戰。傳統檢測僵尸網絡的方式,通常是人工分析網絡數據,或者是在僵尸網絡形成、攻擊階段,利用僵尸主機存在的行為特征,采用單一模型分析通信的網絡數據內容,以進行網絡數據的檢測,存在漏檢誤檢的情況。
發明內容
本申請的目的在于提供一種數據檢測方法、模型訓練方法、裝置及電子設備,能夠提高僵尸網絡數據檢測的準確性與檢測效率。
為了實現上述目的,本申請提供的技術方案如下:
第一方面,本申請實施例提供一種數據檢測方法,所述方法包括:以I個不同時間長度的時間窗口,從原始流量數據采集得到與I個時間窗口對應的流量數據,I為大于1的整數;通過預設處理算法對所述流量數據進行預處理,得到與每個所述時間窗口的流量數據對應的特征向量;將與所述原始流量數據中的每條流量對應的所述特征向量輸入經過訓練測試的監督學習模型,得到由所述監督學習模型輸出的表征所述每條流量是否為僵尸網絡流量的檢測結果;其中,所述監督學習模型包括M類機器學習模型及N類深度學習模型,所述M類機器學習模型及所述N類深度學習模型均用于對每個所述時間窗口所對應的所述特征向量進行檢測,以得到M+N個初檢結果,當在所述M+N個初檢結果中,超過預設數量的初檢結果均表示同一條待測流量數據為僵尸網絡流量,則所述監督學習模型輸出表征所述待測流量數據為僵尸網絡流量的檢測結果,M、N均為大于或等于1的整數。
在上述的實施方式中,由M類機器學習模型及N類深度學習模型均對流量數據進行檢測,然后再對得到的M+N個初檢結果進行分析,以確定待測流量數據是否為僵尸網絡流量,如此,可以替換人工進行檢測,有利于提高檢測效率。另外,采用多類模型進行并聯檢測,有利于提高檢測的準確性與可靠性,改善因檢測模型單一而出現漏檢誤檢的問題。
結合第一方面,在一些可選的實施方式中,通過預設處理算法對所述流量數據進行預處理,得到與每個所述時間窗口的流量數據對應的特征向量,包括:針對I個時間窗口中的每個時間窗口,提取每個所述時間窗口所采集到的流量數據在多個維度下的流量特征的特征集合;濾除每個所述時間窗口的所述特征集合中滿足預設過濾條件的流量特征,得到過濾后的特征集合;基于預設的流量特征與特征向量的映射關系,將所述過濾后的特征集合中的流量特征轉換為與每個所述時間窗口對應的特征向量。
在上述的實施方式中,經過過濾后的流量特征,可以降低數據的噪聲,提高檢測的準確性。另外,通過過濾操作,可以避免對不必要數據進行檢測,以降低運算量。
結合第一方面,在一些可選的實施方式中,所述方法還包括:當在所述M+N個初檢結果中,表征同一條所述待測流量數據為僵尸網絡流量的初檢結果的數量小于或等于所述預設數量時,從所述過濾后的特征集合中選取指定類別的流量特征,作為對所述待測流量數據的聚類特征;根據所述聚類特征,通過預設聚類算法對所述待測流量數據進行聚類,得到聚類結果,所述聚類結果用于表示所述待測流量數據為僵尸網絡流量或為非僵尸網絡流量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海斗象信息科技有限公司,未經上海斗象信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210105160.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:密封件鍍膜方法及密封件制備方法
- 下一篇:硅基負極材料的制備方法及生產裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





