[發明專利]一種基于TF-IDF算法和SVDD算法的惡意PDF文檔檢測方法有效
| 申請號: | 201711334962.0 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN107944273B | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 馮迪;鄭少波;楊玉龍;成建宏;梁登輝;陳澤瑞 | 申請(專利權)人: | 貴州航天計量測試技術研究所 |
| 主分類號: | G06F21/56 | 分類號: | G06F21/56 |
| 代理公司: | 貴陽中新專利商標事務所 52100 | 代理人: | 商小川 |
| 地址: | 550009 *** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 算法 svdd 惡意 pdf 文檔 檢測 方法 | ||
1.一種基于TF-IDF算法和SVDD算法的惡意PDF文檔檢測方法,其特征在于:包括以下步驟:
步驟1:收集惡意PDF文檔和正常PDF文檔作為樣本集;
步驟2:生成可檢測惡意PDF文檔的檢測模型;
步驟2所述的生成可檢測惡意PDF文檔的檢測模型,還包括以下步驟:
步驟2.1:定位并提取樣本集中惡意PDF文檔所包含的可疑JavaScript代碼;
步驟2.2:采用TF-IDF算法進行惡意PDF文檔特征生成,得到至少一組特征單詞,并統計特征單詞的TF-IDF值;
步驟2.3:采用PCA算法進行降維處理,得到一組能夠代表樣本中惡意PDF文檔特征的向量集合;
步驟2.4:采用SVDD算法生成可檢測惡意PDF文檔的檢測模型及其判別函數;
步驟3:檢測待測PDF文檔;
步驟3所述的檢測待測PDF文檔,還包括以下步驟:
步驟3.1:定位并提取待測PDF文檔所包含的JavaScript代碼;
步驟3.2:計算在特征生成階段選取的至少一組特征單詞在該待測文檔JavaScript代碼中的TF-IDF值,并以n維列向量y進行表示;
步驟3.3:利用矩陣P對特征單詞的向量y進行降維,計算得到k維列向量x;
步驟3.4:將降維后的向量x輸入至檢測模型的判別函數中,計算該向量在高維空間內與分類模型最小超球體球心的距離;
步驟3.5:判別函數判斷文檔是否為惡意PDF文檔。
2.根據權利要求1所述的一種基于TF-IDF算法和SVDD算法的惡意PDF文檔檢測方法,其特征在于:步驟2.1所述的定位并提取樣本集中惡意PDF文檔所包含的可疑JavaScript代碼,還包括以下步驟:
步驟2.1.1:解析惡意PDF文檔,獲取Catalog字典;
步驟2.1.2:依次檢索Catalog字典中的AA字段、OpenAction字段、Page字段、Outline字段、AcroForm字段以及Names字段;
步驟2.1.3:定位數據類型為“Rendition”或“JavaScript”的字典,并提取字典“/JS”關鍵字的內容。
3.根據權利要求1所述的一種基于TF-IDF算法和SVDD算法的惡意PDF文檔檢測方法,其特征在于:步驟2.2所述的采用TF-IDF算法進行惡意PDF文檔特征生成,得到至少一組特征單詞,并統計特征單詞的TF-IDF值,還包括以下步驟:
步驟2.2.1:判斷樣本中是否還存在未遍歷的惡意PDF文檔,若已遍歷所有惡意PDF文檔,結束統計TF-IDF值的流程,若還有未遍歷所有惡意PDF文檔,則進行步驟2.2.2;
步驟2.2.2:計算未遍歷的惡意PDF文檔中JavaScript代碼中所有單詞的TF-IDF值;
步驟2.2.3:統計任一個未遍歷的惡意PDF文檔的JavaScript代碼中特定單詞ti出現的次數;
步驟2.2.4:統計包含特定單詞ti的未遍歷的惡意PDF文檔數與樣本集文檔總數的比值關系;
步驟2.2.5:計算在未遍歷的惡意PDF文檔中的特定單詞ti的TF-IDF值;
步驟2.2.6:判斷是否遍歷所有惡意PDF文檔中所有的單詞。
4.根據權利要求1所述的一種基于TF-IDF算法和SVDD算法的惡意PDF文檔檢測方法,其特征在于:步驟2.3所述的采用PCA算法進行降維處理,得到一組能夠代表樣本中惡意PDF文檔特征的向量集合,還包括以下步驟:
步驟2.3.1:統計樣本集中的m個惡意PDF文檔和每個惡意PDF文檔中n個特征單詞的TF-IDF值,組成n*m的矩陣C;
步驟2.3.2:計算矩陣C的自相關矩陣X;
步驟2.3.3:計算矩陣X的特征值集合,并按照從大到小進行排列;
步驟2.3.4:選取矩陣X的前k(0kn)個特征值的特征向量作為行向量,由上至下構成一個k*n的矩陣P;
步驟2.3.5:計算k*m的矩陣Z,計算式為Z=PC,C為n*m的矩陣,P為k*n的矩陣。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州航天計量測試技術研究所,未經貴州航天計量測試技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711334962.0/1.html,轉載請聲明來源鉆瓜專利網。





