[發(fā)明專利]一種基于圖對比學習的暗網異常流量檢測方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202310204678.0 | 申請日: | 2023-03-06 |
| 公開(公告)號: | CN116527304A | 公開(公告)日: | 2023-08-01 |
| 發(fā)明(設計)人: | 寇澤;方蘭婷;楊玉漣 | 申請(專利權)人: | 東南大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L41/142 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 葉倩 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 對比 學習 異常 流量 檢測 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于圖對比學習的暗網異常流量檢測方法及系統(tǒng),通過采集暗網的流量數據,建立包含結構邊和語義邊的異構圖;針對建好的圖,尋找圖中隱藏節(jié)點并排序,進行中心性感知的數據增強;將數據增強后的視圖放入HGAT,得到嵌入后的數據;優(yōu)化對比損失函數,拉近正樣本對,遠離正負樣本對,進行對比學習;在下游任務中,將沒有標簽的暗網數據通過嵌入預測標簽,得出異常的暗網數據。本發(fā)明相比于其他暗網異常流量檢測方式,準確率效果更好,同時超越其他圖對比模型。
技術領域
本發(fā)明屬于信息安全技術領域,主要涉及了一種基于圖對比學習的暗網異常流量檢測方法及系統(tǒng)。
背景技術
加密流量的快速增長同時面臨著許多安全隱患,不法分子基于洋蔥路由(Tor)、虛擬專用網(VPN)等匿名通信技術,形成了無法直接搜索到的暗網,其架設通過特定的軟件、配置或授權來訪問,暗網隱藏著巨大的危害。由于暗網中合法主機的數量最少甚至沒有,任何流量都被認為是有問題的并被相應地處理。暗網流量分類可以提供一種報警機制,通過對實時應用程序的分類,對暗網流量的有效分析和檢測,有助于在攻擊之前早期監(jiān)控惡意軟件,并在爆發(fā)后檢測到惡意活動。
傳統(tǒng)的基于端口、基于有效載荷以及基于行為特征的非加密流量檢測方法已經很難適用于加密流量的分類與檢測,而基于機器學習的流量檢測方法受到的影響則相對較少。傳統(tǒng)的機器學習方法一般需要具有專業(yè)知識的專家進行經驗提取和特征篩選,并且實踐起來往往要花費大量的時間成本和人力成本,傳統(tǒng)模型專注于單個主機發(fā)送流量的統(tǒng)計數據,模型所學習到的信息只能反映當前主機的局部通信模式,導致模型的泛化性不高;流量數據中的拓撲結構信息沒有被充分的利用,導致對異常檢測的精度不夠,甚至丟失一些有用的信息。
深度學習方法近些年逐漸得到了學術和工業(yè)界的青睞,隨著神經網絡的不斷發(fā)展,圖神經網絡如GCN、GAT等在處理非歐式空間數據上大放異彩。通過圖嵌入的方式,既可以有效地保留節(jié)點的信息內容,又可以有效地捕捉圖的網絡拓撲結構。ETC-GCN模型使用卷積神經網絡(CNN)來學習原始流量特征的嵌入、使用異構圖卷積神經網絡(HeterogeneousGCN)來捕獲具有兩種端點類型的異構圖的網絡側行為。
現實場景中的流量數據大多缺乏人工標注的標簽,并且流量類別不平衡、交互數據中包含著大量噪聲等問題。同時現有的流量加密機制也使得攻擊者更易將威脅活動偽裝成正常的網絡通信。在判定加密流量是否為惡意時,現有方式沒有充分考慮流量之間的相關性而僅僅孤立分析流量數據流。
發(fā)明內容
本發(fā)明正是針對現有技術中沒有充分考慮流量之間的相關性只孤立分析流量數據流,且暗網流量數據缺乏人工標注的標簽,不利于流量檢測的問題,提供一種基于圖對比學習的暗網異常流量檢測方法及系統(tǒng),通過采集暗網的流量數據,建立包含結構邊和語義邊的異構圖;針對建好的圖,尋找圖中隱藏節(jié)點并排序,進行中心性感知的數據增強;將數據增強后的視圖放入HGAT,得到嵌入后的數據;優(yōu)化對比損失函數,拉近正樣本對,遠離正負樣本對,進行對比學習;在下游任務中,將沒有標簽的暗網數據通過嵌入預測標簽,得出異常的暗網數據。本發(fā)明相比于其他暗網異常流量檢測方式,準確率效果更好,同時超越其他圖對比模型。
為了實現上述目的,本發(fā)明采取的技術方案是:一種基于圖對比學習的暗網異常流量檢測方法,包括如下步驟:
S1:針對暗網采集的流量數據,建立暗網數據流結構圖,將數據流結構圖中的邊映射為節(jié)點,構建線圖,在線圖中節(jié)點與最相似的節(jié)點間建立語義邊,建立包含結構邊和語義邊的異構圖;
S2:針對步驟S1建好的異構圖,尋找圖中隱藏節(jié)點并排序,進行中心性感知的數據增強;
S3:將經過步驟S2數據增強后的視圖放入HGAT,得到嵌入后的數據;
S4:針對S3嵌入后的數據進行對比學習,優(yōu)化對比損失函數訓練模型;
S5:將沒有標簽的暗網流量數據放入S4訓練好的模型中預測標簽,得出異常的暗網數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310204678.0/2.html,轉載請聲明來源鉆瓜專利網。





