[發明專利]一種基于代價敏感學習的Android惡意軟件檢測方法在審
| 申請號: | 202310073548.8 | 申請日: | 2023-01-17 |
| 公開(公告)號: | CN116070209A | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 王練;杜文萃;夏瑜文;付小芳;陳奕豆;楊瀚 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06F18/2413 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王詩思 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 代價 敏感 學習 android 惡意 軟件 檢測 方法 | ||
本發明屬于信息安全中的安卓惡意軟件檢測領域,特別涉及一種基于代價敏感學習的Android惡意軟件檢測方法;所述方法包括獲取原始的Android軟件樣本數據集;對數據集中的所有樣本進行反編譯獲得源代碼文件;從反編譯后的源代碼文件中提取權限和四大組件作為原始特征;對所有樣本采用樣本敏感權重計算方法計算樣本權重,并得到樣本敏感權重序列;將樣本敏感權重序列應用于特征選擇階段,采用基于代價敏感的特征選擇方法,從選出敏感特征子集;將樣本敏感權重序列應用于模型訓練階段,采用基于代價敏感學習的分類方法,對所述敏感特征子集檢測出Android惡意軟件。本發明能夠提高安卓惡意軟件分類模型檢測效率和檢測準確率。
技術領域
本發明屬于信息安全中的Android惡意軟件檢測領域,針對機器學習中數據集不平衡問題,特別涉及一種基于代價敏感學習的Android惡意軟件檢測方法。
背景技術
進入移動互聯時代以來智能手機用戶數量激增。其中,Android系統因其開源性、可移植性等特點,占據了智能手機市場的主要份額。移動應用程序在給人們生活帶來便利的同時也使用戶面臨著更多的安全威脅。由于Android系統的開源性、流行性以及現階段應用市場管理機制的不完善,Android惡意軟件不斷增加,嚴重威脅到用戶的隱私安全、財產安全,甚至人身安全。據G-DATA移動安全報告統計,2021年Android設備新增的惡意軟件超過250萬個,移動安全問題十分嚴峻。
由于惡意軟件數量劇增,而人工檢測存在效率過低等問題,近年相關研究通過結合機器學習算法對Android惡意軟件進行檢測。在分類問題中,機器學習算法大多利用已標記的樣本數據集來訓練預測模型,根據過去的觀測結果自動地進行預測。而在模型訓練過程中,訓練數據集樣本的構成對模型有顯著的影響,如數據集的質量、樣本時間偏差或數據集不平衡等。其中,數據集類別不平衡是當前廣泛存在的問題,在數據分析領域備受關注。訓練數據集不平衡會導致分類模型偏向多數類,少數類樣本極易被分類錯誤。在Android惡意軟件檢測研究中類別不平衡問題同樣存在。據相關統計,真實場景中惡意軟件通常僅占整個數據集的8%-12%。此外,若將惡意軟件預測為良性軟件并廣泛傳播,可能導致不可估量的后果,反之影響相對較小。現有基于機器學習的Android惡意軟件檢測方法多采用不平衡數據集,但當數據集類不平衡時檢測模型的性能會顯著降低。因此,在Android惡意軟件檢測中如何減少類不平衡的影響,提高惡意樣本的檢測準確率是當前的關鍵研究問題之一。
目前,相關研究提出了諸多方法以解決數據集類別不平衡問題,主要包括數據級處理和算法級處理。數據級處理通過改變多數類或少數類的樣本數量,將不平衡數據集調整為平衡數據集。其中,最常用的技術有欠采樣技術和過采樣技術。算法級處理通過改進現有分類算法,以提高模型對少數類樣本的分類性能。其中,最常用的方法是代價敏感方法,該方法在學習過程中為每個類別設置不同的錯分代價,通過提高少數類的錯分代價,進一步提高分類器對少數類分類的準確率。但是,傳統代價敏感方法僅將代價敏感嵌入分類算法中,而忽略特征選擇過程也受數據集類別不平衡的影響,從而導致在特征選擇階段就丟失大量重要特征,嚴重影響后續分類模型的準確性。
發明內容
為解決現有檢測技術中數據集不平衡導致Android惡意軟件檢測模型對惡意軟件誤報率較高以及模型泛化能力不足等問題,同時為了減少數據集類不平衡對Android惡意軟件檢測模型的影響,提高檢測模型效率和準確率,本發明提出一種基于代價敏感學習的Android惡意軟件檢測方法,該方法基于樣本類別和樣本重要度計算樣本敏感權重,并同時應用于特征選擇算法和分類算法中,在特征選擇階段選出敏感特征子集后使用代價敏感的分類算法進行模型訓練,從而在提高分類模型檢測效率的同時提高對少數類樣本的檢測準確率。
一種基于代價敏感學習的Android惡意軟件檢測方法,包括以下步驟:
S1:獲取原始的Android軟件樣本數據集,包括Android惡意樣本和Android良性樣本;對數據集中的所有樣本進行反編譯獲得源代碼文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310073548.8/2.html,轉載請聲明來源鉆瓜專利網。





