[發明專利]基于感知歸類的軟件檢測模型訓練方法、檢測方法和系統有效
| 申請號: | 202310848692.4 | 申請日: | 2023-07-12 |
| 公開(公告)號: | CN116578969B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 烏云;崔超遠;敬超 | 申請(專利權)人: | 中國科學院合肥物質科學研究院 |
| 主分類號: | G06F21/53 | 分類號: | G06F21/53;G06F18/23;G06F40/30;G06F18/214 |
| 代理公司: | 合肥和瑞知識產權代理事務所(普通合伙) 34118 | 代理人: | 金宇平 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 感知 歸類 軟件 檢測 模型 訓練 方法 系統 | ||
本發明涉及機器學習與計算機系統行為安全技術領域,尤其是一種基于感知歸類的軟件檢測模型訓練方法、檢測方法和系統。通過本發明訓練的惡意軟件檢測模型包括敏感語義提取器、敏感語義聚類子模型、序列語義提取器、拼接網絡和軟件傾向評估子模型。本發明結合微觀層次的API調用的敏感語義嵌入和宏觀層次的軟件的序列語義嵌入構成軟件的信息表示,然后基于該信息表示識別軟件的類別。通過實驗數據證明,本發明提供的惡意軟件檢測模型相對于現有的基于神經網絡的惡意軟件檢測方法,具有更好的識別表現,大大提高了模型的檢測精度,本發明提供的訓練方法很好的克服了模型訓練過度擬合的缺陷,大大提高了模型的泛化能力。
技術領域
本發明涉及機器學習與計算機系統行為安全技術領域,尤其是一種基于感知歸類的軟件檢測模型訓練方法、檢測方法和系統。
背景技術
惡意軟件是一種被設計用于入侵、破壞或竊取信息的計算機程序,因其變種多、傳播速度快、隱蔽性高及對計算機系統的破壞性強,使得探究有效檢測惡意軟件方法是計算機系統行為安全領域一項重要研究。
目前的惡意軟件檢測方法主要分為靜態檢測和動態檢測兩大類。靜態惡意軟件檢測方法,如基于簽名和基于規則的方法,在不運行軟件的情況下,通過分析軟件的源代碼、二進制文件或其他文件的結構實現檢測,所需檢測代價小。然而,惡意軟件可以通過混淆、加殼、動態加載等技術使其避免被靜態方法檢測出來,同時新型的惡意軟件可能不會被靜態分析的檢測規則所覆蓋,因此存在誤報或漏報等問題,使得檢測性能大大降低。而動態惡意軟件檢測方法,如基于API調用序列的方法,可以捕獲惡意軟件的完整行為,不依賴于已知的惡意軟件簽名或特征,可以檢測出零日攻擊,即尚未被發現或識別的新型惡意軟件,同時能更快地更新檢測規則以適應新的惡意軟件,減少誤報率。
API調用是軟件動態運行過程中最重要的行為,目前基于API調用的方法主要包括序列模式挖掘(如最長公共子序列挖掘)、依賴圖分析(如路徑分析)、時序模型(如循環神經網絡)。然而,目前基于API調用序列的檢測方法,大部分僅使用API調用名,忽略API調用的參數和返回值,僅有少數方法引入了部分的參數或返回值等細粒度的語義信息,且這些方法要么只考慮參數和返回值的統計數據,要么將參數和返回值視為一個字符串,沒有解析完整且全面的程序行為語義,這將造成如下問題:1)作用類似的參數被看成完全不同,使得檢測模型的泛化能力大大降低;2)容易受到對抗性攻擊的干擾(如頻繁使用無實際作用的API調用、參數和返回值);3)模型無法有效處理未知的API調用參數和返回值。
發明內容
為了克服上述現有技術中惡意軟件檢測實用效果差的缺陷,本發明提出了一種基于感知歸類的軟件檢測模型訓練方法,提高惡意軟件檢測能力。
本發明提出的一種基于感知歸類的軟件檢測模型訓練方法,用于獲取惡意軟件檢測模型,包括以下步驟;
St1、采集已知類別的軟件在虛擬沙箱環境中運行時產生的API調用序列;軟件的類別包括良性和惡意;定義良性軟件的集合記作Xb,良性軟件運行產生的API調用的集合為良性集合Sb;惡意軟件的集合記作Xm,惡意軟件運行產生的API調用的集合為惡意集合Sm;定義API總集合為良性集合Sb和惡意集合Sm的并集,令API總集合中第i個API調用記作Si;
St2、結合設定的初始標記策略定義API總集合中各API調用的初始標記,初始標記為良性、惡意或者未知;將初始標記為“良性”的API調用和初始標記為“惡意”的API調用統一稱為API語義訓練樣本,集合所有API語義訓練樣本構建API語義訓練數據集;
St3、構建第一基礎模型,第一基礎模型包括敏感語義提取模塊和API類別判斷模塊;敏感語義提取模塊用于提取API調用Si的敏感語義嵌入Ii,API類別判斷模塊根據敏感語義嵌入Ii判斷API調用Si類別;結合API語義訓練數據集對第一基礎模型進行訓練,獲取收斂后的第一基礎模型中的敏感語義提取模塊作為敏感語義提取器;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院合肥物質科學研究院,未經中國科學院合肥物質科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310848692.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:激光頭碰撞保護裝置和保護方法
- 下一篇:一種單元測試用例自動生成方法及系統





