[發(fā)明專利]基于語義分析和雙向編碼表征的惡意軟件檢測方法在審
| 申請?zhí)枺?/td> | 202310588930.2 | 申請日: | 2023-05-24 |
| 公開(公告)號: | CN116432184A | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設計)人: | 趙運弢;馮永新;劉峻名 | 申請(專利權)人: | 沈陽理工大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F40/30;G06F16/35;G06F18/214;G06F18/2415;G06N3/0442;G06N3/045;G06N3/0464;G06N3/084 |
| 代理公司: | 沈陽東大知識產(chǎn)權代理有限公司 21109 | 代理人: | 李在川 |
| 地址: | 110159 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 分析 雙向 編碼 表征 惡意 軟件 檢測 方法 | ||
本發(fā)明針對傳統(tǒng)模型檢測惡意代碼存在多義詞表示和缺乏上下文語義的問題,提出了基于語義分析和雙向編碼表征的惡意軟件檢測方法,將BERT與基于外部注意機制的卷積遞歸網(wǎng)絡相結合,使用惡意軟件API函數(shù)調(diào)用序列作為模型學習的特征,并對其進行靜態(tài)分析以檢測現(xiàn)有惡意軟件;利用API調(diào)用函數(shù)序列在上下文和語義上存在相關性,將BERT用于單詞表示任務,并從序列中接收語義信息;卷積神經(jīng)網(wǎng)絡和長短期記憶網(wǎng)絡分別用于完成二次特征提取和API函數(shù)之間的鏈關系挖掘;并在長短時記憶網(wǎng)絡之后添加注意力機制,能夠更好地關注文本中的關鍵信息,減少噪聲的影響,提高在文本分類任務中的準確性;本發(fā)明不受惡意代碼本身變化和變形的影響,準確率達到98.81%。
技術領域
本發(fā)明屬于計算機安全技術的惡意軟件檢測領域,尤其涉及基于語義分析和雙向編碼表征的惡意軟件檢測方法。
背景技術
隨著信息技術的快速發(fā)展和普及,計算機已經(jīng)成為現(xiàn)代化社會中不可或缺的一部分。然而,隨著計算機應用場景的日益復雜,安全問題也越來越凸顯,惡意軟件的類型和數(shù)量都在迅速擴大,傳播方式也在不斷變化。包括入侵檢測、病毒分類、垃圾郵件分析和網(wǎng)絡釣魚預防在內(nèi)的許多問題已使網(wǎng)絡安全成為一場噩夢。
近年來,針對工業(yè)控制系統(tǒng)的先進病毒和先進持續(xù)威脅攻擊越來越頻繁,此類病毒的大量變種使得基于固定特征的檢測變得越來越費力,工業(yè)控制系統(tǒng)信息安全問題也越來越突出。隨著網(wǎng)絡攻擊變得越來越復雜,包括木馬、僵尸網(wǎng)絡、廣告軟件和間諜軟件在內(nèi)的各種新的惡意軟件變得更具破壞性和挑戰(zhàn)性。病毒種類也迅速產(chǎn)生和更新,對互聯(lián)網(wǎng)構成了更大的威脅。Atlas?VPN團隊估計,2022年有190萬個針對Linux的惡意軟件,比前一年增加了50%。去年第三季度,針對Linux的惡意軟件樣本為75841個,同比增長91%;第四季度,共有164697個樣本,同比增長117%。不幸的是,反病毒等經(jīng)典安全技術無法應對快速增長的惡意軟件多樣性,這讓人們對目前使用的方法的有效性和可信度產(chǎn)生了懷疑。
在全球化的今天,每個人的計算機都有可能成為受害者。不僅如此,物聯(lián)網(wǎng)的發(fā)展使得所有的事物都相互連接并通過網(wǎng)絡交換信息,但這也允許跨多個平臺的互連設備大量擴散惡意軟件,物聯(lián)網(wǎng)生態(tài)系統(tǒng)也極易受到通過傳統(tǒng)計算機和智能手機進行的大量惡意軟件攻擊。此外,由于Android平臺在移動設備中的迅速采用,檢測惡意軟件攻擊的過程已成為一項具有挑戰(zhàn)性的工作。要想從根本上解決惡意軟件帶來的危機,只有不斷地尋求新的解決方案并加強安全措施,才能確保物聯(lián)網(wǎng)技術發(fā)展的可持續(xù)性和安全性。因此,就需要解決傳統(tǒng)惡意軟件分析方法的不足,研究出更加有效的解決策略,有必要提出一種效率高、實用性強并且可以應對惡意軟件變化的智能分析方法。
發(fā)明內(nèi)容
針對現(xiàn)有技術的不足,本發(fā)明提供基于語義分析和雙向編碼表征的惡意軟件檢測方法。從惡意代碼檢測效率出發(fā),將語義分析與雙向編碼表征結合,提高檢測變形惡意代碼的準確率,保證在不同的環(huán)境、平臺和操作系統(tǒng)中運行時也能保證模型的魯棒性;同時,省去人工標注數(shù)據(jù)的過程,利用該檢測手段可以基于數(shù)據(jù)本身的語義關系和上下文信息,準確識別出惡意代碼的入侵行為,保證計算機系統(tǒng)的安全性和穩(wěn)定性。
基于語義分析和雙向編碼表征的惡意軟件檢測方法,包括以下內(nèi)容:
步驟1:獲取惡意軟件數(shù)據(jù)集,以CSV文件形式保存,并提取出數(shù)據(jù)集中的API函數(shù)調(diào)用序列;
首先下載惡意軟件數(shù)據(jù)集,該數(shù)據(jù)集中包含多個惡意軟件的基本信息,每個基本信息包含以下特征:sha256哈希值、標簽、標頭信息、導入函數(shù)庫、導出函數(shù)庫、節(jié)信息、字符串信息、滑動窗口熵計算、鏈接器版本、提交大小、系統(tǒng)版本和子系統(tǒng)版本;其中導入函數(shù)庫里包含了惡意軟件API函數(shù);
獲取完數(shù)據(jù)集后,針對每個惡意軟件的基本信息,使用Python第三方庫將每個惡意軟件的API函數(shù)從導入函數(shù)庫中分別提取出來,同時保留API函數(shù)在導入函數(shù)庫中的順序,得到由API函數(shù)組成的序列,即一個惡意軟件對應一條API函數(shù)調(diào)用序列,最后將惡意軟件的家族名和它對應的API函數(shù)調(diào)用序列兩個字段保存至CSV文件中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽理工大學,未經(jīng)沈陽理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310588930.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





