[發明專利]一種基于分組集成的不平衡惡意軟件檢測方法在審
| 申請號: | 202010571828.8 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111753299A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 嚴海升;李強 | 申請(專利權)人: | 重慶文理學院 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06K9/62 |
| 代理公司: | 杭州泓呈祥專利代理事務所(普通合伙) 33350 | 代理人: | 張嬋嬋 |
| 地址: | 402160 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分組 集成 不平衡 惡意 軟件 檢測 方法 | ||
本發明屬于信息安全技術領域,具體涉及一種基于分組集成的不平衡惡意軟件檢測方法,包括以下步驟:S1、特征提取:對實驗樣本中提取權限信息及API調用信息,構成特征向量集合;其中,實驗樣本包括正常樣本和惡意樣本,正常樣本的數量大于惡意樣本的數量;S2、特征優化:采用信息增益算法對特征向量集合進行篩選,以去除冗余特征,獲得不平衡數據集;S3、利用分組集成檢測算法對不平衡數據集進行檢測,以對正常樣本和惡意樣本進行分類。本發明解決了數據集不平衡造成的惡意軟件檢測的準確性和穩定性難以保證的缺陷。
技術領域
本發明屬于信息安全技術領域,具體涉及一種基于分組集成的不平衡惡意軟件檢測方法。
背景技術
Android平臺由于其開源特性,受到廣大手機廠商的青睞,據IDC最新統計,Android手機已占據87%的市場份額,同時由于其開源,易受到惡意軟件攻擊,在已發現的手機端惡意軟件中,97%的來至于Android平臺。惡意分子利用惡意軟件對Android平臺進行攻擊,來竊取用戶隱私信息,進行惡意扣費等,手機安全形勢非常嚴峻,因而惡意軟件檢測成為信息安全領域的一個研究重點。
機器學習已經在垃圾郵件過濾等信息安全領域取得了巨大的成功。研究者將機器學習算法應用到Android惡意軟件檢測領域,提出了很多惡意軟件檢測算法,并驗證了機器學算法在惡意軟件檢測問題中的有效性。何文才等提出了一種基于敏感權限的輕量級檢測方案,分析了權限在不同類別樣本中存在差異,去掉了冗余權限,最后采用最近鄰分類算法對惡意軟件實現了判別。張怡婷等提出了一種基于樸素貝葉斯的Android惡意軟件檢測策略,通過判別是否存在濫用權限、敏感權限是否串供等作為特征屬性,實現了對惡意軟件的甄別。楊宏宇等提取了android軟件的權限及組件意圖信息作為特征,采用一種加權投票優化的隨機森林算法對惡意軟件實現了檢測。雖然現有很多對惡意軟件的檢測方法被提出,但是這些方法大多數都假設訓練數據中惡意軟件和正常軟件在數量上無太大相差。然而,在實際應用中由于正常樣本可以通過爬蟲批量從第三方市場獲得,而惡意軟件樣本的搜集成本高、難度大,正常軟件樣本的數量遠多于惡意軟件樣本的數量,造成訓練數據的不平衡問題,導致惡意軟件檢測方法的準確性和穩定性難以保證。在惡意軟件檢測中,由于惡意軟件樣本搜集代價高等原因,造成數據的不平衡。
發明內容
為解決數據不平衡性導致的惡意軟件的檢測和分類精度低的問題,本發明提供一種基于分組集成的不平衡惡意軟件檢測方法,并在真實數據集上驗證了本發明在解決數據不平衡問題上的有效性。
為了達到上述發明目的,本發明采用以下技術方案:
一種基于分組集成的不平衡惡意軟件檢測方法,包括以下步驟:
S1、特征提?。簩嶒灅颖局刑崛嘞扌畔⒓癆PI調用信息,構成特征向量集合;其中,實驗樣本包括正常樣本和惡意樣本,正常樣本的數量大于惡意樣本的數量;
S2、特征優化:采用信息增益算法對特征向量集合進行篩選,以去除冗余特征,獲得不平衡數據集;
S3、利用分組集成檢測算法對不平衡數據集進行檢測,以對正常樣本和惡意樣本進行分類。
作為優選方案,所述步驟S3具體包括以下步驟:
S31、從不平衡數據集中隨機抽取三份數據集,分別作為訓練數據集、驗證數據集和測試數據集;其中,訓練數據集中的正常樣本與惡意樣本的數量分別記為b與m;
S32、隨機不放回地從訓練數據集的正常樣本中抽取m個樣本與m個惡意樣本合成新的數據集Di;抽取k次,形成k個平衡數據集;其中,k=b/m;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶文理學院,未經重慶文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571828.8/2.html,轉載請聲明來源鉆瓜專利網。





