[發明專利]一種文件類型識別方法及服務器有效
| 申請號: | 201610272161.5 | 申請日: | 2016-04-27 |
| 公開(公告)號: | CN107315954B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 羅元海;王佳斌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;蔣雅潔 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件類型 識別 方法 服務器 | ||
本發明提供了一種文件類型識別方法及服務器,該方法包括:將訓練樣本劃分為至少一類病毒的訓練樣本以及正常文件的訓練樣本;對所述訓練樣本進行特征提取,分別得到每一個訓練樣本的特征集合;利用所述每一個訓練樣本的所述特征集合,確定所述至少一類病毒中每一類病毒的特征信息庫、以及確定正常文件的特征信息庫;基于所述每一類病毒的特征信息庫、以及正常文件的特征信息庫,確定用以識別所述至少一類病毒及正常文件的分類模型。
技術領域
本發明涉及信息處理領域的信息識別技術,具體涉及一種文件類型識別方法及服務器。
背景技術
現有對病毒文件的檢測技術方案如下:分析人員分析病毒文件、提取病毒特征、將病毒特征入庫、殺毒引擎根據病毒庫掃描現有文件,如果遇到能夠匹配上的特征則報毒。但是,上述處理方式主要依靠人工抽取特征碼并制定相應的識別規則,這種檢測方式需要病毒分析人員針對已有樣本進行人工分析,找出相應的特征,這嚴重依賴于病毒分析人員的能力,因此需要大量經驗豐富的人員才能滿足解決問題的需求,由于技術復雜,識別的效率比較低。而且利用人工總結特征碼一般只能處理已知的病毒,不能對可能發生的問題進行防范,因此具有一定的滯后性。
目前,現有技術中,也有使用機器學習的方法對樣本進行分類,但是這類方案都僅把訓練樣本分為病毒、非病毒,一方面由于病毒的多樣性和分布的不均勻性,使得這種僅區分病毒、非病毒的機器分類方法訓練出來的模型針對性不強導致準確性不高,并且容易丟掉一些小眾病毒的特征從而導致漏報較多,另一方面識別的粒度也只能是病毒/非病毒,而不能精確到病毒種類。
發明內容
有鑒于此,本發明實施例的主要目的在于提供一種文件類型識別方法及服務器,以至少解決上述現有存在的技術問題。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明實施例提供了一種文件類型識別方法,應用于服務器,該方法包括:
將訓練樣本劃分為至少一類病毒的訓練樣本以及正常文件的訓練樣本;
對所述訓練樣本進行特征提取,分別得到每一個訓練樣本的特征集合;
利用所述每一個訓練樣本的所述特征集合,確定所述至少一類病毒中每一類病毒的特征信息庫、以及確定正常文件的特征信息庫;
基于所述每一類病毒的特征信息庫、以及正常文件的特征信息庫,確定用以識別所述至少一類病毒及正常文件的分類模型。
本發明實施例提供了一種服務器,所述服務器包括:
樣本選取單元,用于將訓練樣本劃分為至少一類病毒的訓練樣本以及正常文件的訓練樣本;
特征提取單元,用于對所述訓練樣本進行特征提取,分別得到每一個訓練樣本的特征集合;
特征選取單元,用于利用所述每一個訓練樣本的所述特征集合,確定所述至少一類病毒中每一類病毒的特征信息庫、以及確定正常文件的特征信息庫;
模型訓練單元,用于基于所述每一類病毒的特征信息庫、以及正常文件的特征信息庫,確定用以識別所述至少一類病毒及正常文件的分類模型。
本發明提供的一種文件類型識別方法及服務器,能夠劃分得到至少一類病毒的訓練樣本、以及正常文件的訓練樣本,進而基于上述至少一類病毒以及正常文件的訓練樣本對應的特征分別建立不同類病毒的特征信息庫、以及正常文件的特征信息庫;最終基于不同類病毒的特征信息庫、以及正常文件的特征信息庫建立得到多元分類模型以識別病毒的類型或者識別正常文件。如此,由于對訓練使用的病毒樣本進行了分類,有效的提高了檢測模型的準確性,降低了漏報率,同時也使得識別結果更加精細;另外,通過多元分類模型的建立,保證減少在進行病毒分析時人工干預的成分,極大的降低了病毒檢測的成本,提高了效率,并縮短了病毒出現到被查殺的時間。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610272161.5/2.html,轉載請聲明來源鉆瓜專利網。





