[發(fā)明專利]一種運用人工智能算法提高病毒查殺率的方法在審
| 申請?zhí)枺?/td> | 202010828745.2 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN112818344A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設計)人: | 張顥 | 申請(專利權)人: | 北京辰信領創(chuàng)信息技術有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 上海氦閃專利代理事務所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
| 地址: | 100089 北京市海淀區(qū)中關村*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 運用 人工智能 算法 提高 病毒 查殺率 方法 | ||
1.一種運用人工智能算法提高病毒查殺率的方法,包括樣本特征預處理系統(tǒng)和模型訓練評估系統(tǒng),其特征在于,所述樣本特征預處理系統(tǒng)包括:
樣本特征提取模塊:來對Windows PE文件特征的提??;
樣本特征向量化模塊:來對樣本特征進行向量化;
特征篩選模塊:來對特征進行篩選,使特征空間降維;
其具體步驟如下:
(i)從存儲樣本的Hadoop HDFS平臺上分布式下載樣本;
(ii)樣本下載完成后,在各個機器上運行特征提取的程序,提取特征的同時將之前未知的特征上傳到特征數(shù)據(jù)庫,其中特征數(shù)據(jù)庫是一個存儲特征的名稱和特征的序號對應關系的Redis數(shù)據(jù)庫;
(iii)特征提取后的樣本需要經(jīng)過向量化處理,將每個樣本都轉(zhuǎn)換為與特征空間大小相同的數(shù)組,將該數(shù)組的值初始化為0,然后根據(jù)Redis數(shù)據(jù)庫中存儲的特征名稱和特征序號的對應關系,獲取特征的序號,然后給數(shù)組的該序號位置賦值,其中特征空間大小為20萬;
(iv)最后需要進行特征篩選,特征篩選使用XGBoost算法,針對單次訓練所使用的樣本利用全量特征數(shù)據(jù)來用于特征篩選模型的訓練;模型的損失函數(shù)采用Softmax分類函數(shù);模型訓練完畢后,可以得到一個在本次訓練中特征的重要性指標;
所述模型訓練評估系統(tǒng)包括:
訓練模塊:利用XGBoost算法來訓練一個分類器對黑白樣本進行類;
評估模塊:來對樣本特征預處理系統(tǒng)中訓練好的模型進行評估,并找到合適的參數(shù),來使檢出率和誤報率達到平衡;
其具體步驟如下:
(i)使用經(jīng)過篩選的特征對要用于模型訓練評估的樣本進行重新向量化處理,將每個樣本都轉(zhuǎn)換為與特征空間大小相同的數(shù)組,將該數(shù)組的值初始化為0,然后根據(jù)Redis數(shù)據(jù)庫中存儲的特征名稱和特征序號的對應關系,獲取特征的序號,然后給數(shù)組的該序號位置賦值,其中特征空間大小由樣本特征預處理系統(tǒng)中的20萬降低到8000;
(ii)將樣本按照80%,15%和5%的比例分解成訓練集、測試集和驗證集;其中,訓練集和驗證集用于模型的訓練;測試集不參與訓練,因此對于訓練好的模型屬于未知樣本,并用于在模型評估工作中中對模型進行評估;
(iii)當所有參數(shù)都調(diào)整好,可以對模型進行編譯打包成MATRIX引擎加入產(chǎn)品;
(iv)整個流程每兩周循環(huán)一次,最新一次的訓練會預先加載上一次已經(jīng)訓練好的模型,對該模型的參數(shù)進行更新并且根據(jù)情況增加樹的個數(shù)。
2.根據(jù)權利要求1所述的一種運用人工智能算法提高病毒查殺率的方法,其特征在于,所述XGBoost算法具體包括以下方法:
XGBoost算法不斷地枚舉不同樹的結(jié)構,然后利用打分函數(shù)來尋找出一個最優(yōu)結(jié)構的樹,接著加入到模型中,不斷重復這樣的操作;并在最有結(jié)構的樹中,選擇一個特征分裂,計算損失函數(shù)最小值,然后再選一個特征分裂,又得到一個損失函數(shù)最小值,枚舉完,找一個效果最好的特征,把一個節(jié)點分裂成兩個子節(jié)點,這樣不斷加深樹的深度;
其中在以下情況下可以停止增長樹的深度:
(1)當引入的分裂帶來的增益小于設定閾值的時候,可以忽略掉這個分裂;
(2)當樹達到最大深度時則停止建立決策樹,避免樹太深導致學習局部樣本,從而過擬合;
(3)樣本權重和小于設定閾值時則停止建樹,防止過擬合;
當一棵樹停止增長時,計算損失函數(shù)的值,得到預測的殘差;然后再次添加樹,重復之前的特征分裂來生長一棵新樹,去擬合上棵樹預測的殘差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京辰信領創(chuàng)信息技術有限公司,未經(jīng)北京辰信領創(chuàng)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010828745.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





