[發(fā)明專利]一種數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110249229.9 | 申請(qǐng)日: | 2021-03-08 |
| 公開(公告)號(hào): | CN112990286A | 公開(公告)日: | 2021-06-18 |
| 發(fā)明(設(shè)計(jì))人: | 戚岱杰;竇鳳虎;鄭超;王媛娣 | 申請(qǐng)(專利權(quán))人: | 中電積至(海南)信息技術(shù)有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;H04L29/06 |
| 代理公司: | 重慶百潤(rùn)洪知識(shí)產(chǎn)權(quán)代理有限公司 50219 | 代理人: | 陳付玉 |
| 地址: | 571924 海南省海口市澄邁縣老城*** | 國(guó)省代碼: | 海南;46 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 不平衡 場(chǎng)景 惡意 流量 檢測(cè) 方法 | ||
本發(fā)明公開了一種數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法,包括以下操作步驟:S1、獲取訓(xùn)練集和測(cè)試集:通過手動(dòng)收集各個(gè)惡意軟件樣本的流量作為負(fù)樣本。涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域。該數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法,通過使用四元組來標(biāo)識(shí)每個(gè)網(wǎng)絡(luò)流,提取每條流的統(tǒng)計(jì)特征并做標(biāo)準(zhǔn)化處理,將端口信息、統(tǒng)計(jì)特征聯(lián)合作為特征向量,構(gòu)成訓(xùn)練集和測(cè)試集,在算法層面,通過將k?means聚類算法與SMOTE過采樣技術(shù)相結(jié)合,其設(shè)法通過僅在安全區(qū)域進(jìn)行過采樣來避免產(chǎn)生噪聲,重點(diǎn)放在類別之間的不平衡和類別內(nèi)部的不平衡,通過增加少數(shù)樣本稀疏區(qū)域的少數(shù)類樣本來對(duì)抗少數(shù)類樣本分散的問題,擴(kuò)充了少數(shù)類的樣本量,為分類模型提供良好的訓(xùn)練數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,具體為一種數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法。
背景技術(shù)
通常情況下,從現(xiàn)實(shí)場(chǎng)景中獲取的數(shù)據(jù)大多都是不平衡的,少數(shù)類的樣本數(shù)量往往遠(yuǎn)少于多數(shù)類樣本,然而屬于少數(shù)類的樣本卻往往具有更大的意義,例如欺詐檢測(cè)、故障診斷以及網(wǎng)絡(luò)入侵檢測(cè)等領(lǐng)域,在機(jī)器學(xué)習(xí)領(lǐng)域類別不平衡問題一直受到研究人員們的關(guān)注,因此需要對(duì)該類惡意流量進(jìn)行檢測(cè),針對(duì)該問題發(fā)展出了多種解決方法,主要可以分為四類:數(shù)據(jù)抽樣、代價(jià)敏感學(xué)習(xí)、決策邊界移動(dòng)和集成學(xué)習(xí)方法,但是當(dāng)傳統(tǒng)的學(xué)習(xí)算法應(yīng)用于不平衡數(shù)據(jù)集時(shí),少數(shù)類很容易發(fā)生錯(cuò)誤分類。
目前,基于規(guī)則的惡意流量檢測(cè)方法由于其在檢測(cè)效果、檢測(cè)效率以及人工干預(yù)上的局限性,很難適用于現(xiàn)如今海量網(wǎng)絡(luò)數(shù)據(jù)的情況,隨著人工智能技術(shù)的發(fā)展,越來越多的人使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法進(jìn)行惡意流量檢測(cè),目前在惡意流量檢測(cè)領(lǐng)域所用的訓(xùn)練數(shù)據(jù)可以分為正常流量樣本和惡意流量樣本,然而在實(shí)際網(wǎng)絡(luò)環(huán)境中,惡意流量占比很小,因此存在著類別不平衡的問題,使用一般的學(xué)習(xí)算法進(jìn)行分類時(shí),惡意流量的召回率較低,對(duì)少數(shù)類的區(qū)分能力不足,在正負(fù)樣本不平衡情況下,并不能保證惡意流量分類的準(zhǔn)確性。
發(fā)明內(nèi)容
(一)解決的技術(shù)問題
針對(duì)現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法,解決了現(xiàn)有的惡意流量檢測(cè)方法中,使用一般的學(xué)習(xí)算法進(jìn)行分類時(shí),惡意流量的召回率較低,對(duì)少數(shù)類的區(qū)分能力不足,在正負(fù)樣本不平衡情況下,并不能保證惡意流量分類的準(zhǔn)確性的問題。
(二)技術(shù)方案
為實(shí)現(xiàn)以上目的,本發(fā)明通過以下技術(shù)方案予以實(shí)現(xiàn):一種數(shù)據(jù)不平衡場(chǎng)景下的惡意流量檢測(cè)方法,包括以下操作步驟:
S1、獲取訓(xùn)練集和測(cè)試集:通過手動(dòng)收集各個(gè)惡意軟件樣本的流量作為負(fù)樣本,并在不運(yùn)行惡意軟件的相同環(huán)境下收集正常流量作為正樣本,或是直接采用標(biāo)準(zhǔn)的公開數(shù)據(jù)集,將對(duì)正常流量和惡意流量構(gòu)建特征向量,劃分出測(cè)試集和訓(xùn)練集;
S2、對(duì)惡意流量進(jìn)行k-means聚類:將S1中收集的惡意流量作為輸入樣本,然后通過k-means聚類將輸入樣本分為k組;
S3、分配要生成的樣本數(shù)量:根據(jù)預(yù)先設(shè)置的過采樣目標(biāo),為各個(gè)類簇分配要生成的樣本數(shù),然后為少數(shù)類樣本占比較高的類簇分配較少的樣本數(shù),將更多樣本分配給少數(shù)樣本稀疏分布的類簇;
S4、使用SMOTE進(jìn)行過采樣:使用SMOTE進(jìn)行對(duì)S3中分配好的樣本進(jìn)行過采樣,根據(jù)指定的用于構(gòu)建合成樣本的簇內(nèi)最近鄰居數(shù)進(jìn)行插值,進(jìn)而生成新樣本;
S5、訓(xùn)練基于G-mean改進(jìn)過的ELM分類器:使用新構(gòu)建的數(shù)據(jù)集訓(xùn)練G-mean改進(jìn)過的ELM分類器;
為了改善經(jīng)典的ELM算法在不平衡數(shù)據(jù)學(xué)習(xí)中的不足,基于G-mean定義了新的損失函數(shù),提出了新的ELM算法,其中G-mean是廣泛應(yīng)用于不平衡數(shù)據(jù)學(xué)習(xí)中的評(píng)價(jià)度量指標(biāo),其定義如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中電積至(海南)信息技術(shù)有限公司,未經(jīng)中電積至(海南)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110249229.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 電視場(chǎng)景切換的方法及電視
- 視頻場(chǎng)景控制系統(tǒng)及方法
- 場(chǎng)景開關(guān)及其場(chǎng)景開關(guān)構(gòu)件和場(chǎng)景圖標(biāo)卡組件
- 場(chǎng)景聯(lián)動(dòng)方法及場(chǎng)景聯(lián)動(dòng)系統(tǒng)
- 一種視頻場(chǎng)景分類方法、裝置、移動(dòng)終端及存儲(chǔ)介質(zhì)
- 一種Unity3D引擎的場(chǎng)景切換方法和系統(tǒng)
- 一種自動(dòng)駕駛場(chǎng)景分類識(shí)別系統(tǒng)及方法
- 一種虛擬場(chǎng)景生成方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種汽車圖像場(chǎng)景庫(kù)數(shù)據(jù)復(fù)雜度度量方法
- 場(chǎng)景識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 惡意特征數(shù)據(jù)庫(kù)的建立方法、惡意對(duì)象檢測(cè)方法及其裝置
- 用于檢測(cè)惡意鏈接的方法及系統(tǒng)
- 惡意信息識(shí)別方法、惡意信息識(shí)別裝置及系統(tǒng)
- 主動(dòng)式移動(dòng)終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺(tái)系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲(chǔ)介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測(cè)方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測(cè)方法及對(duì)應(yīng)裝置
- 惡意語(yǔ)音樣本的確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





