[發明專利]基于感知歸類的軟件檢測模型訓練方法、檢測方法和系統有效
| 申請號: | 202310848692.4 | 申請日: | 2023-07-12 |
| 公開(公告)號: | CN116578969B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 烏云;崔超遠;敬超 | 申請(專利權)人: | 中國科學院合肥物質科學研究院 |
| 主分類號: | G06F21/53 | 分類號: | G06F21/53;G06F18/23;G06F40/30;G06F18/214 |
| 代理公司: | 合肥和瑞知識產權代理事務所(普通合伙) 34118 | 代理人: | 金宇平 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 感知 歸類 軟件 檢測 模型 訓練 方法 系統 | ||
1.一種基于感知歸類的軟件檢測模型訓練方法,用于獲取惡意軟件檢測模型,其特征在于,包括以下步驟;
St1、采集已知類別的軟件在虛擬沙箱環境中運行時產生的API調用序列;軟件的類別包括良性和惡意;定義良性軟件的集合記作Xb,良性軟件運行產生的API調用的集合為良性集合Sb;惡意軟件的集合記作Xm,惡意軟件運行產生的API調用的集合為惡意集合Sm;定義API總集合為良性集合Sb和惡意集合Sm的并集,令API總集合中第i個API調用記作Si;
St2、結合設定的初始標記策略定義API總集合中各API調用的初始標記,初始標記為良性、惡意或者未知;將初始標記為“良性”的API調用和初始標記為“惡意”的API調用統一稱為API語義訓練樣本,集合所有API語義訓練樣本構建API語義訓練數據集;
St3、構建第一基礎模型,第一基礎模型包括敏感語義提取模塊和API類別判斷模塊;敏感語義提取模塊用于提取API調用Si的敏感語義嵌入Ii,API類別判斷模塊根據敏感語義嵌入Ii判斷API調用Si類別;結合API語義訓練數據集對第一基礎模型進行訓練,獲取收斂后的第一基礎模型中的敏感語義提取模塊作為敏感語義提取器;
St4、構建敏感語義聚類子模型,敏感語義聚類子模型用于對敏感語義提取器提取的敏感語義嵌入進行聚類,以獲取API調用的聚類類別;
St5、構建第二基礎模型,第二基礎模型包括序列語義提取模塊和軟件判別模塊,序列語義提取模塊用于根據軟件的API類別序列獲取軟件的序列語義嵌入,軟件判別模塊用于根據軟件的序列語義嵌入判斷軟件的類別;
結合軟件總集合構建序列語義訓練樣本,序列語義訓練樣本由軟件的API類別序列和軟件的類別組成;結合序列語義訓練樣本對第二基礎模型進行訓練,獲取收斂后的第二基礎模型中的序列語義提取模塊作為序列語義提取器;
軟件的API類別序列用于描述軟件的API調用序列中各個API調用通過敏感語義聚類子模型聚類后的聚類類別;
序列語義嵌入為多個語義向量構成的多維向量矩陣,語義向量與軟件的API調用序列中的API調用數量一一對應;
St6、構建第三基礎模型,第三基礎模型用于根據軟件的組合語義嵌入獲取軟件的類別;結合軟件總集合構建組合語義訓練樣本,組合語義訓練樣本由軟件的組合語義嵌入和軟件的類別組成;結合組合語義訓練樣本對第三基礎模型進行訓練,獲取收斂后的第三基礎模型作為軟件傾向評估子模型;
軟件的組合語義嵌入由軟件的API調用的語義向量和敏感語義嵌入在API調用維度拼接形成;
St7、結合敏感語義提取器、敏感語義聚類子模型、序列語義提取器、拼接網絡和軟件傾向評估子模型構建惡意軟件檢測模型;
敏感語義提取器的輸出分別連接敏感語義聚類子模型和拼接網絡的輸入,敏感語義聚類子模型的輸出連接序列語義提取器的輸入,序列語義提取器的輸出連接拼接網絡的輸入,拼接網絡的輸出連接軟件傾向評估子模型的輸出;
拼接網絡用于拼接軟件的API調用序列中各API調用的敏感語義嵌入和軟件的序列語義嵌入,以形成軟件的組合語義嵌入;
敏感語義提取器的輸入連接惡意軟件檢測模型的輸入,惡意軟件檢測模型的輸入用于獲取待檢測軟件的API調用序列;軟件傾向評估子模型的輸出作為惡意檢測軟件的輸出,惡意檢測軟件的輸出為軟件的類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院合肥物質科學研究院,未經中國科學院合肥物質科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310848692.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:激光頭碰撞保護裝置和保護方法
- 下一篇:一種單元測試用例自動生成方法及系統





