[發明專利]一種文件類型識別方法及服務器有效
| 申請號: | 201610272161.5 | 申請日: | 2016-04-27 |
| 公開(公告)號: | CN107315954B | 公開(公告)日: | 2020-06-12 |
| 發明(設計)人: | 羅元海;王佳斌 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;蔣雅潔 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件類型 識別 方法 服務器 | ||
1.一種文件類型識別方法,應用于服務器,其特征在于,該方法包括:
獲取已標記類別標簽的訓練樣本,其中,所述類別標簽包括病毒類別和安全屬性;
將所述訓練樣本劃分為至少兩類病毒的訓練樣本以及正常文件的訓練樣本;
根據預先設置的提取特征列表,對不同的所述類別標簽的所述訓練樣本進行特征提取,分別得到每一個訓練樣本的特征集合,其中,所述特征集合包括以下至少之一:頭部信息特征、常量特征、操作數特征、指令序列特征、類名函數名特征和權限特征;
將所述每一個訓練樣本的所述特征集合中的每一個特征信息的出現次數進行排序,根據所述排序確定所述至少兩類病毒中每一類病毒的特征信息庫,并根據所述排序確定所述正常文件的特征信息庫;
基于所述每一類病毒的特征信息庫、以及正常文件的特征信息庫,確定用以識別所述至少兩類病毒及正常文件的分類模型;
獲取終端設備發來的待識別文件,對所述待識別文件進行特征提取得到所述待識別文件的至少一個特征;
基于所述待識別文件的至少一個特征、以及所述分類模型,確定所述待識別文件在每一類對應的分類函數值,選取分類函數值最大的一個類別作為所述待識別文件對應的類型識別結果;
其中,所述類型識別結果中包括有所述待識別文件為所述至少兩類病毒文件中的一類、或所述待識別文件為正常文件;
發送所述類型識別結果至所述終端設備。
2.根據權利要求1所述的方法,其特征在于,所述將所述每一個訓練樣本的所述特征集合中的每一個特征信息的出現次數進行排序,根據所述排序確定所述至少兩類病毒中每一類病毒的特征信息庫,并根據所述排序確定所述正常文件的特征信息庫,包括:
從全部訓練樣本的特征集合中逐個選取目標特征信息;
判斷所述目標特征信息是否僅存在于所述正常文件的特征集合中,若是,則將所述目標特征信息添加到所述正常文件的特征信息庫;
若不是,則判斷所述目標特征信息是否僅存在于所述至少兩類病毒中的任一類目標類病毒的訓練樣本的特征集合中,若是,則將所述目標特征信息添加到對應的所述目標類病毒的特征信息庫中。
3.根據權利要求1所述的方法,其特征在于,所述將所述每一個訓練樣本的所述特征集合中的每一個特征信息的出現次數進行排序,根據所述排序確定所述至少兩類病毒中每一類病毒的特征信息庫,并根據所述排序確定所述正常文件的特征信息庫,包括:
從全部訓練樣本的特征集合中逐個選取目標特征信息;
判斷所述目標特征信息是否僅存在于所述正常文件的特征集合中,若是,則將所述目標特征信息添加到所述正常文件的待用特征信息集合;
若不是,則判斷所述目標特征信息是否僅存在于目標類病毒的訓練樣本的特征集合中,若是,則將所述目標特征信息添加到所述目標類病毒的待用特征信息集合;直至完成對全部訓練樣本的特征集合中的全部特征信息的判斷為止;
對所述正常文件的待用特征信息集合中的每一個特征信息的出現次數進行統計,基于統計的出現次數從所述待用特征集合中選取得到至少一個特征信息添加到所述正常文件的特征信息庫;以及對每一類病毒的待用特征信息集合中的每一個特征信息的出現次數進行統計,根據統計的出現次數從所述待用特征集合中選取得到至少一個特征信息添加到對應類病毒的特征信息庫。
4.根據權利要求1所述的方法,其特征在于,所述將所述每一個訓練樣本的所述特征集合中的每一個特征信息的出現次數進行排序,根據所述排序確定所述至少兩類病毒中每一類病毒的特征信息庫,包括:
從所述至少兩類病毒中逐個選取得到目標類病毒;
獲取所述目標類病毒的全部訓練樣本的特征集合;
根據所述目標類病毒的全部訓練樣本的特征集合中的每一個特征出現的次數,選取得到目標類病毒的至少一個特征信息,將所述至少一個特征信息添加至所述目標類病毒的特征信息庫;
以此類推,直至獲取到全部類病毒對應的特征信息庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610272161.5/1.html,轉載請聲明來源鉆瓜專利網。





