[發明專利]一種惡意代碼家族的訓練和檢測方法及裝置在審
| 申請號: | 201710543651.9 | 申請日: | 2017-07-05 |
| 公開(公告)號: | CN107392019A | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 曲武 | 申請(專利權)人: | 北京金睛云華科技有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56;G06K9/62;G06N3/08;G06N99/00 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 李紅爽,李丹 |
| 地址: | 100191 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 惡意代碼 家族 訓練 檢測 方法 裝置 | ||
技術領域
本發明實施例涉及計算機安全技術領域和深度學習領域,尤指一種惡意代碼家族的訓練和檢測方法及裝置。
背景技術
隨著惡意代碼成為信息安全的重要威脅,惡意代碼檢測技術成為信息安全領域的重要研究方向。惡意代碼的檢測方法主要有基于特征碼的檢測方法和基于行為的檢測方法。
基于特征碼的檢測方法,通過檢測文件是否擁有已知惡意代碼的特征碼(如一段特殊代碼或字符串)來判斷其是否為惡意代碼。它的優點是快速、準確率高、誤報率低,但是難以檢測惡意代碼變種和未知的惡意代碼。而且,該方法需要安全專家對大量惡意代碼進行人工特征碼提取,更新特征庫。
基于行為的檢測方法,通過監視程序的行為與已知的惡意行為模式進行匹配,以此判斷目標文件是否具備惡意行為特征。它的優點可以檢測變種和未知的惡意代碼,缺點是時間開銷大、誤報率較高,且不同類型的惡意代碼需要使用不同虛擬環境(Windows、Linux和Android)支持。
發明內容
為了解決上述技術問題,本發明實施例提供了一種惡意代碼家族的訓練和檢測方法及裝置,能夠解決特征檢測的人工提取困難以及行為檢測的時間開銷大且誤報高等問題,對于惡意代碼變種和加殼具有優異的檢測能力,具有檢測速度快、準確率高、誤報率低、可以跨平臺檢測等諸多特點。
為了達到本發明實施例目的,本發明實施例提供了一種惡意代碼家族的訓練和檢測方法,該方法包括:
將惡意代碼映射為圖像,并提取該圖像的圖像特征;
根據該圖像特征對惡意代碼圖像進行聚類,并對聚類后獲得的不同類型的惡意代碼圖像進行惡意代碼家族標注;
建立卷積神經元網絡模型;
利用已經進行惡意代碼家族標注的惡意代碼圖像集合訓練卷積神經元網絡模型,并將經過訓練的卷積神經元網絡模型作為檢測模型;
利用檢測模型對待檢測的惡意代碼樣本以及所述惡意代碼樣本的變種進行家族檢測。
可選地,將惡意代碼映射為圖像,并提取圖像的圖像特征包括:
選取惡意代碼庫作為待處理的惡意代碼集合;
對待處理的惡意代碼集合進行分布式處理,以過濾掉不符合條件的惡意代碼樣本;
利用預設的映射算法將經過處理的惡意代碼庫中的惡意代碼映射為圖像;
采用預設的圖像特征提取算法從映射獲得的圖像中提取所述惡意代碼對應的圖像特征,并將所提取的圖像特征構造為特征集合。
可選地,根據圖像特征對惡意代碼圖像進行聚類,并對聚類后獲得的不同類型的惡意代碼圖像進行惡意代碼家族標注包括:
采用預設的聚類算法對所述特征集合進行分布式聚類;
使用殺毒軟件對經過分布式聚類后的惡意代碼圖像進行惡意代碼家族標注。
可選地,
惡意代碼庫包括:Windows系統的PE惡意文件、Linux系統的ELF惡意文件和/或安卓Android系統的APK文件;
預設的映射算法包括:B2G映射算法;
預設的圖像特征提取算法包括:GIST特征算法、SIFT特征算法、GLCM特征算法、ColorHis特征算法、Gabor特征算法、Census特征算法和LBP特征算法;
預設的聚類算法包括:分布式聚類算法和通用單機聚類算法;
殺毒軟件包括:微軟MSE殺毒軟件。
可選地,建立卷積神經元網絡模型包括:
構造輸入層、輸出層以及以下任意一個或多個層:卷積層、非線性層、池化層和全連接層;
設置各層參數和訓練權重。
可選地,在利用已經進行惡意代碼家族標注的惡意代碼圖像集合訓練卷積神經元網絡模型之前,該方法還包括:
采用預設的分段算法將經過標注的惡意代碼圖像集合中的惡意代碼文件根據不同的文件類型分別分為多個段section;
利用預設的映射算法將惡意代碼文件以及惡意代碼文件中的各個section映射為灰度圖像。
可選地,利用已經進行惡意代碼家族標注的惡意代碼圖像集合訓練卷積神經元網絡模型包括:
71、將映射獲得的灰度圖像作為訓練卷積神經元網絡模型的輸入;
72、執行灰度圖像在輸入層和所述輸出層之間各層的傳播,并計算每種惡意代碼家族對應的輸出概率;
73、根據輸出概率計算全部種類的惡意代碼家族在輸出層的誤差總和,以獲得輸出層的總誤差;
74、采用預設的梯度算法計算總誤差相對于所有權重的梯度,并用梯度下降法更新各層的權重和參數值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金睛云華科技有限公司,未經北京金睛云華科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710543651.9/2.html,轉載請聲明來源鉆瓜專利網。





