[發(fā)明專利]一種運用人工智能算法提高病毒查殺率的方法在審
| 申請?zhí)枺?/td> | 202010828745.2 | 申請日: | 2020-08-17 |
| 公開(公告)號: | CN112818344A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設計)人: | 張顥 | 申請(專利權(quán))人: | 北京辰信領(lǐng)創(chuàng)信息技術(shù)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 上海氦閃專利代理事務所(普通合伙) 31354 | 代理人: | 李明;袁媛 |
| 地址: | 100089 北京市海淀區(qū)中關(guān)村*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 運用 人工智能 算法 提高 病毒 查殺率 方法 | ||
本發(fā)明涉及人工智能與機器學習技術(shù)領(lǐng)域,尤其是本發(fā)明提供一種運用人工智能算法提高病毒查殺率的方法,包括樣本特征預處理系統(tǒng)和模型訓練評估系統(tǒng),樣本預處理系統(tǒng)包括:用于對Windows PE文件特征提取的樣本特征提取模塊、用于對樣本特征進行向量化處理的樣本特征向量化模塊以及用于對特征進行篩選的特征篩選模塊;模型訓練評估系統(tǒng)包括:利用XGBoost算法來訓練一個分類器對黑白樣本進行分類的訓練模塊和來對樣本特征預處理系統(tǒng)中訓練好的模型進行評估并找到合適的參數(shù)的評估模塊,本發(fā)明能夠提高對未知樣本病毒的查殺率,同時可以隨著模型不停的迭代更新。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機信息處理領(lǐng)域,尤其涉及一種運用人工智能算法提高病毒查殺率的方法。
背景技術(shù)
現(xiàn)有的傳統(tǒng)殺毒引擎需要大量病毒分析人員對病毒進行分析研究從而制定規(guī)則,來達到查殺的目的。
因為目前的病毒分析是人工處理,對未知樣本需要先獲得病毒樣本,才能制定規(guī)則,因此往往具有滯后性。
發(fā)明內(nèi)容
本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在的缺點,而提出的一種運用人工智能算法提高病毒查殺率的方法。
為達到以上目的,本發(fā)明采用的技術(shù)方案為:一種運用人工智能算法提高病毒查殺率的方法,包括樣本特征預處理系統(tǒng)和模型訓練評估系統(tǒng),其特征在于,所述樣本特征預處理系統(tǒng)包括:
樣本特征提取模塊:來對Windows PE文件特征的提取;
樣本特征向量化模塊:來對樣本特征進行向量化;
特征篩選模塊:來對特征進行篩選,使特征空間降維;
其具體步驟如下:
(i)從存儲樣本的Hadoop HDFS平臺上分布式下載樣本;
(ii)樣本下載完成后,在各個機器上運行特征提取的程序,提取特征的同時將之前未知的特征上傳到特征數(shù)據(jù)庫,其中特征數(shù)據(jù)庫是一個存儲特征的名稱和特征的序號對應關(guān)系的Redis數(shù)據(jù)庫;
(iii)特征提取后的樣本需要經(jīng)過向量化處理,將每個樣本都轉(zhuǎn)換為與特征空間大小相同的數(shù)組,將該數(shù)組的值初始化為0,然后根據(jù)Redis數(shù)據(jù)庫中存儲的特征名稱和特征序號的對應關(guān)系,獲取特征的序號,然后給數(shù)組的該序號位置賦值,其中特征空間大小為20萬;
(iv)最后需要進行特征篩選,特征篩選使用XGBoost算法,針對單次訓練所使用的樣本利用全量特征數(shù)據(jù)來用于特征篩選模型的訓練;模型的損失函數(shù)采用Softmax分類函數(shù);模型訓練完畢后,可以得到一個在本次訓練中特征的重要性指標;
所述模型訓練評估系統(tǒng)包括:
訓練模塊:利用XGBoost算法來訓練一個分類器對黑白樣本進行類;
評估模塊:來對樣本特征預處理系統(tǒng)中訓練好的模型進行評估,并找到合適的參數(shù),來使檢出率和誤報率達到平衡;
其具體步驟如下:
(i)使用經(jīng)過篩選的特征對要用于模型訓練評估的樣本進行重新向量化處理,將每個樣本都轉(zhuǎn)換為與特征空間大小相同的數(shù)組,將該數(shù)組的值初始化為0,然后根據(jù)Redis數(shù)據(jù)庫中存儲的特征名稱和特征序號的對應關(guān)系,獲取特征的序號,然后給數(shù)組的該序號位置賦值,其中特征空間大小由樣本特征預處理系統(tǒng)中的20萬降低到8000;
(ii)將樣本按照80%,15%和5%的比例分解成訓練集、測試集和驗證集;其中,訓練集和驗證集用于模型的訓練;測試集不參與訓練,因此對于訓練好的模型屬于未知樣本,并用于在模型評估工作中中對模型進行評估;
(iii)當所有參數(shù)都調(diào)整好,可以對模型進行編譯打包成MATRIX引擎加入產(chǎn)品;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京辰信領(lǐng)創(chuàng)信息技術(shù)有限公司,未經(jīng)北京辰信領(lǐng)創(chuàng)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010828745.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





