[發明專利]軟件檢測方法、裝置、設備及存儲介質有效
| 申請號: | 201811257390.5 | 申請日: | 2018-10-26 |
| 公開(公告)號: | CN109359439B | 公開(公告)日: | 2019-12-13 |
| 發明(設計)人: | 龐瑞;張宏君 | 申請(專利權)人: | 北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司 |
| 主分類號: | G06F21/12 | 分類號: | G06F21/12 |
| 代理公司: | 11010 工業和信息化部電子專利中心 | 代理人: | 齊潔茹 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 存儲介質 惡意軟件 非數值型 軟件檢測 矩陣 機器學習算法 學習分類器 復雜字符 構造特征 哈希算法 機器學習 空間開銷 模型訓練 目標軟件 特征矩陣 特征轉化 訓練機器 分類器 樣本庫 哈希 加密 檢測 轉換 轉化 | ||
本發明公開了一種軟件檢測方法、裝置、設備及存儲介質,所述方法包括:提取軟件樣本庫中各樣本所包含的數值型特征和非數值型特征;利用選定的N種非加密哈希算法對所述非數值型特征進行處理,并將處理結果轉換為數值型特征;所述N為大于1的整數;根據各樣本中包含的所述數值型特征和轉化得到的所述數值型特征,構造特征矩陣;利用所述特征矩陣訓練機器學習分類器;利用所述機器學習分類器,對目標軟件進行檢測。本發明可以將從惡意軟件樣本中提取出的復雜字符串特征轉化為易于機器學習算法處理的哈希特征,從而降低了模型訓練難度,顯著提高了訓練速度,降低了空間開銷,提升了惡意軟件判別精度。
技術領域
本發明涉及檢測技術領域,尤其涉及一種軟件檢測方法、裝置、設備及存儲介質。
背景技術
惡意軟件主要包括破壞性電腦病毒,蠕蟲病毒,木馬后門,漏洞利用程序,廣告釣魚代碼等,這些惡意軟件可以與多種規避技術和安全漏洞相結合,突破現有傳統防御系統的監測,對用戶利益產生極大破壞。惡意軟件檢測系統的目的就是要及時發現混雜于正常文件中的惡意軟件,并盡可能在其產生破壞性影響前自主采取措施,并且及時通知用戶。
目前惡意軟件檢測方法包括靜態文件分析檢測和動態行為分析檢測兩種。現有的惡意軟件靜態檢測技術,主要依靠人工生成的特征碼庫和規則庫進行匹配,即使較先進的啟發式查毒檢測技術,也需要依靠人工維護的專家知識庫來協助判斷辨識。然而在當前互聯網爆炸式擴展的情況下,互聯網中成千上萬的主機和用戶都面臨各類變種,多態,加殼,加混淆等惡意軟件的威脅。如何能迅速應對變種病毒和惡意軟件攻擊,對海量并且種類繁多的惡意軟件進行自動化的處理分析,提高惡意軟件的檢出率,降低誤報率,成為了當前惡意軟件檢測手段的主要難題。
基于機器學習的檢測方法不依賴特征碼庫和專家知識庫,利用經過訓練的模型快速自動化的判別辨識惡意軟件,并能依靠進一步訓練的模型對惡意軟件進行分類,具有較好的研究和應用前景。機器學習惡意軟件檢測方法主要依賴兩大步驟,其一是選取合適足量的樣本,并對其中的特征進行提取,提取后的數值和非數值特征需要進行篩選和清洗,剔除缺失,錯誤項,對數值特征做標準化和歸一化處理,對非數值特征則進行特殊編碼,一般進行單一熱點(one-hot)編碼,轉化為計算機能識別處理的數值形式,再將所有提取的特征組合起來形成特征矩陣。其二是需要選擇合適的機器學習建模方式,對于當前海量惡意軟件帶來的問題,傳統的邏輯回歸,樸素貝葉斯,支持向量機,決策樹等方法均因為訓練速度慢,消耗資源巨大,模型評估效果較差等因素不適用于惡意軟件檢測和辨識。
傳統的惡意軟件特征提取方法對于提取出來的字符串信息,或者采用one-hot編碼,或者轉化為AscII碼的數值類型,這種處理方式存在如下的缺陷:
1,one-hot編碼對于字符串集合中字符串個數,字符串名稱都確定的情況下比較有效,而惡意軟件中提取的字符串特征因為惡意軟件總量是無限的,新的惡意軟件層出不窮,因此依靠訓練樣本的字符串集合來估算總體樣本的字符串集合會帶來很大的偏差;
2,字符串轉AscII碼確實能將字符串類型特征轉化為數值類型特征,但鑒于不同樣本提取的字符串特征長度可能不一致,從而轉化后的特征數量也不一致,如何對AscII碼形式的字符串進行分詞分節較為困難,仍然需要設計算法將輸入機器學習模型的特征矩陣維數轉化一致,從而復雜度依然較高;
3,難以應對病毒生成器產生的海量加混淆,字符串變種,人為加干擾,摻沙子等抵御查毒引擎檢測的各種方式。
可見,現有的基于機器學習檢測方法中的惡意軟件特征提取方法并不能滿足需求,所以,如何將從惡意軟件樣本中提取出的復雜字符串特征轉化為易于機器學習算法處理的特征,從而降低模型訓練難度,提高訓練速度,成為本發明所要解決的技術問題。
發明內容
鑒于上述問題,提出了本發明實施例以便提供一種軟件檢測方法、裝置、設備及存儲介質。
依據本發明實施例的一個方面,提供一種軟件檢測方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司,未經北京天融信網絡安全技術有限公司;北京天融信科技有限公司;北京天融信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811257390.5/2.html,轉載請聲明來源鉆瓜專利網。





