[發明專利]基于數據挖掘的多軌跡惡意程序特征檢測方法有效
| 申請號: | 201510516268.5 | 申請日: | 2015-08-21 |
| 公開(公告)號: | CN105138916B | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 單征;趙榮彩;龐建明;李男;范超;蔡洪波;趙炳麟;王銀浩;龔雪容;蔡國明;薛飛;閆麗景;賈珣;徐曉燕;王洋;陳鵬;魏亮 | 申請(專利權)人: | 中國人民解放軍信息工程大學 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 鄭州大通專利商標代理有限公司41111 | 代理人: | 張海青 |
| 地址: | 450001 河*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 挖掘 軌跡 惡意程序 特征 檢測 方法 | ||
技術領域
本發明涉及一種惡意程序特征檢測方法,特別是涉及一種基于數據挖掘的多軌跡惡意程序特征檢測方法。
背景技術
目前,基于靜態逆向的檢測方法難以突破惡意代碼的防反匯編技術,無法提取出惡意代碼特征并實施檢測;基于特征碼匹配機制的商用殺毒軟件的病毒庫的更新存在嚴重的滯后。但惡意代碼及其變種的惡意行為是不變的,所以對惡意代碼的特征提取要從其運行時的行為進行動態分析。
1.惡意代碼檢測:
惡意代碼檢測方法可以分為基于啟發式(heuristic.based)的檢測方法和基于特征(signature.based)的檢測方法兩大類。基于啟發式的檢測方法通過比較系統上層信息和取自內核的系統狀態來識別隱藏的文件、進程及注冊表信息,啟發式檢測可以發現未知的惡意程序,但其規則的生成依賴于分析人員的經驗,在應用中易存在高誤報及漏報率,因此,在檢測系統中特別是商用殺毒軟件中應用較少。基于特征的檢測方法是根據由惡意代碼中提取的特征進行檢測,與啟發式檢測方法相比,其具有檢測效率高、誤報率低的優點,因此被廣泛應用于惡意代碼檢測工具中,也是目前惡意代碼檢測的主流方法。
基于特征的檢測方法分為靜態特征檢測和動態特征檢測。靜態特征檢測方法是指通過靜態分析文件的PE結構、二進制字節碼、反匯編后的代碼等手段,獲取惡意代碼的特征進行檢測,基于靜態特征的檢測不需實際運行惡意代碼程序,實現相對比較簡單,目前基于靜態特征檢測的研究比較多,靜態檢測建立在對PE文件靜態分析的基礎上的,其優點是不用執行惡意代碼,不會對系統造成破壞,但是目前許多惡意軟件都采用加殼、混淆技術干擾反匯編,如果脫殼或解壓不成功,PE文件的靜態分析也就無法完成,將導致檢測失敗,而且,API序列的時間信息被篡改也可以逃過檢測程序。基于動態特征的檢測方法是將惡意代碼程序放在虛擬環境中執行,并監控其行為獲得其行為特征,某些惡意程序會檢測到虛擬殺毒中的虛擬環境,通過在代碼中加入特殊指令或構造特殊結構從而繞過檢測程序,導致殺毒軟件無法檢測到惡意程序,在虛擬動態檢測中存在程序執行多路徑問題,惡意程序在實際運行過程中會因輸入數據不同執行不同的路徑,動態獲取程序的惡意行為無法獲得其全部的惡意行為,從而導致檢測中出現漏報情況。
2.基于數據挖掘的惡意代碼檢測方法:
序列模式的發現(即在序列數據庫中找出所有的頻繁子序列)是數據挖掘領域一個活躍的研究分支。數據挖掘中序列模式算法在對惡意代碼檢測中有著很好的應用。目前已有采用機器代碼的字節序列變長N-gram作為特征提取方法,用加權信息增益作為特征選擇方法,使用決策樹、支持向量機、樸素貝葉斯等多種分類器進行惡意代碼檢測;也有采用數據挖掘中類Apriori算法實現對惡意代碼的檢測。但是上述方法都是靜態提取行為特征,仍無法克服靜態檢測的缺陷。
發明內容
本發明要解決的技術問題是:提供一種檢測準確率高的基于數據挖掘的多軌跡惡意程序特征檢測方法。
本發明的技術方案:一種基于數據挖掘的多軌跡惡意程序特征檢測方法,含有行為軌跡獲取步驟、分片步驟、特征提取與特征庫構建步驟、度量檢測步驟;
行為軌跡獲取步驟獲取程序動態運行的系統調用序列,是模型的基礎;
分片步驟對獲取到的軟件行為軌跡進行分片,以適應挖掘過程的需要;
特征提取與特征庫構建步驟采用數據挖據中改進的序列模式挖掘算法(prefixspan-x算法)獲取文件流、網絡流和資源流行為頻繁子序列集,并剔除正常程序行為軌跡片段,構造惡意行為特征庫;
度量檢測步驟依據構建的三維特征庫對實時運行的程序進行度量檢測。
行為軌跡獲取步驟采用linux系統工具strace對程序進行動態跟蹤,并獲取其運行時的執行軌跡。
訓練集中獲取的行為軌跡需進行分片處理,分片的大小決定這系統的效率和準確性。
特征提取與特征庫構建步驟中:
改進的序列模式挖掘算法(prefixspan-x算法)通過在搜索滿足最小支持度的序列時用AC自動機進行優化,并在構造投影數據庫過程中舍棄不滿足最小長度的頻繁序列,從而優化挖掘過程中的時空開銷;
特征庫(Signature Database,SD)是由一系列表現惡意程序的特征構成的數據庫;
數據挖掘中序列模式挖掘的算法能夠很好解決在龐大的序列數據庫中挖掘軟件行為特征問題,本發明采用改進的序列模式挖掘算法Prefixspan-x進行序列挖掘,并用正常行為軌跡訓練集剔除挖掘到的頻繁序列中的正常行為片段,構建特征庫;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍信息工程大學,未經中國人民解放軍信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510516268.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有多重功效的防曬霜及其用途
- 下一篇:一種電動腳踏運動機
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





