[發(fā)明專利]文檔檢測的方法、裝置、設(shè)備、及計(jì)算機(jī)存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202010771525.0 | 申請(qǐng)日: | 2020-08-04 |
| 公開(公告)號(hào): | CN111914257A | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計(jì))人: | 崔甲;施蕾;胡衛(wèi)華;班曉芳 | 申請(qǐng)(專利權(quán))人: | 中國信息安全測評(píng)中心 |
| 主分類號(hào): | G06F21/56 | 分類號(hào): | G06F21/56;G06K9/62;G06F16/35 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 李慧引 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 檢測 方法 裝置 設(shè)備 計(jì)算機(jī) 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)?zhí)峁┝艘环N文檔檢測的方法、裝置、設(shè)備、及計(jì)算機(jī)存儲(chǔ)介質(zhì),該方法包括:獲取待檢測文檔中的每一個(gè)文件的路徑特征和內(nèi)容特征;將所有的路徑特征和所有的內(nèi)容特征進(jìn)行篩選,分別將篩選得到的每一個(gè)路徑特征和每一個(gè)內(nèi)容特征,作為待檢測文檔的待檢測特征;分別針對(duì)每一個(gè)待檢測特征,將待檢測特征輸入至文檔檢測模型中,得到待檢測特征的判斷結(jié)果;其中,判斷結(jié)果用于說明待檢測特征對(duì)應(yīng)的文件是否為惡意文件;文檔檢測模型由多個(gè)訓(xùn)練樣本文檔各自對(duì)應(yīng)的特征集合對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練得到。從而達(dá)到無論惡意文件是否已知,都可以準(zhǔn)確識(shí)別在大規(guī)模的文檔中的惡意文件的目的。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種文檔檢測的方法、裝置、設(shè) 備、及計(jì)算機(jī)存儲(chǔ)介質(zhì)。
背景技術(shù)
惡意文檔在網(wǎng)絡(luò)攻擊中被廣泛使用。在常見的攻擊模式中,攻擊者將惡 意文檔通過郵件或者網(wǎng)站掛載等社會(huì)工程學(xué)的手段進(jìn)行傳播。當(dāng)用戶打開惡 意文檔以后通常會(huì)觸發(fā)惡意文檔的惡意行為,一般會(huì)導(dǎo)致用戶個(gè)人隱私以及 私密信息的泄露,提供木馬、病毒、蠕蟲的攻擊與傳播載體,或者引發(fā)關(guān)鍵 工控系統(tǒng)的操作故障等。
在現(xiàn)有技術(shù)中,對(duì)惡意文檔的檢測方法主要分為靜態(tài)檢測和動(dòng)態(tài)檢測兩 種方法。傳統(tǒng)的靜態(tài)檢測主要以基于簽名特征的靜態(tài)匹配并結(jié)合機(jī)器學(xué)習(xí)的 檢測方法,能夠有效檢測已知的樣本攻擊,但是針對(duì)未知樣本或者已有樣本 的變種的檢測,無法發(fā)揮效果。而且隨著樣本的增加,特征數(shù)據(jù)庫將變得越 來越大,檢測帶來的開銷也變得越來越大。在動(dòng)態(tài)檢測中,通常通過在沙盒 中動(dòng)態(tài)運(yùn)行樣本,并分析收集目標(biāo)進(jìn)程的相關(guān)行為信息來進(jìn)行檢測。目前該 種方法也面臨著兩個(gè)重要問題,一是整個(gè)動(dòng)態(tài)檢測在時(shí)間和資源上開銷較大, 從而導(dǎo)致無法進(jìn)行大規(guī)模檢測。另外一個(gè)則是樣本對(duì)環(huán)境的依賴較為嚴(yán)重, 只有當(dāng)樣本在特定環(huán)境中運(yùn)行后才會(huì)觸發(fā)相應(yīng)的惡意行為。而實(shí)際情況中要 在沙箱中配置各種環(huán)境往往是不可能的,因此會(huì)導(dǎo)致大量的漏報(bào)。
因此,亟需一種無論惡意文件是否已知,都可以準(zhǔn)確識(shí)別在大規(guī)模的文 檔中的惡意文件的方法。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)?zhí)峁┮环N文檔檢測的方法、裝置、設(shè)備、及計(jì)算機(jī)存 儲(chǔ)介質(zhì),用于無論惡意文件是否已知,都可以準(zhǔn)確識(shí)別在大規(guī)模的文檔中的 惡意文件。
本申請(qǐng)第一方面提供了一種文檔檢測的方法,包括:
獲取待檢測文檔中的每一個(gè)文件的路徑特征和內(nèi)容特征;
將所有的所述路徑特征和所有的所述內(nèi)容特征進(jìn)行篩選,分別將篩選得 到的每一個(gè)所述路徑特征和每一個(gè)所述內(nèi)容特征,作為所述待檢測文檔的待 檢測特征;
分別針對(duì)每一個(gè)所述待檢測特征,將所述待檢測特征輸入至文檔檢測模 型中,得到所述待檢測特征的判斷結(jié)果;其中,所述判斷結(jié)果用于說明所述 待檢測特征對(duì)應(yīng)的文件是否為惡意文件;所述文檔檢測模型由多個(gè)訓(xùn)練樣本 文檔各自對(duì)應(yīng)的特征集合對(duì)隨機(jī)森林分類器進(jìn)行訓(xùn)練得到;每一個(gè)所述訓(xùn)練 樣本文檔中包括多個(gè)惡意樣本文件和多個(gè)良性樣本文件;所述特征集合由所 述訓(xùn)練樣本文檔中的內(nèi)容特征和路徑特征篩選得到。
可選的,所述獲取待檢測文檔中的每一個(gè)文件的路徑特征和內(nèi)容特征, 包括:
對(duì)所述待檢測文檔進(jìn)行解壓縮,得到所述待檢測文檔對(duì)應(yīng)的文件夾;
提取得到所述文件夾中每一個(gè)文件對(duì)應(yīng)的路徑信息,以及所述文件夾中 每一個(gè)子文件夾中的每一個(gè)文件對(duì)應(yīng)的路徑信息;
提取得到所述文件夾中每一個(gè)文件中從開始標(biāo)簽到結(jié)束標(biāo)簽之間的所有 內(nèi)容信息,以及所述文件夾中每一個(gè)子文件夾中的每一個(gè)文件中從開始標(biāo)簽 到結(jié)束標(biāo)簽之間的所有內(nèi)容信息;
分別對(duì)每一個(gè)文件的路徑信息和內(nèi)容信息進(jìn)行特征處理,得到每一個(gè)文 件的路徑特征和內(nèi)容特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國信息安全測評(píng)中心,未經(jīng)中國信息安全測評(píng)中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010771525.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





