[發(fā)明專利]一種文件安全處理方法有效
| 申請?zhí)枺?/td> | 201510792215.6 | 申請日: | 2015-11-17 |
| 公開(公告)號: | CN105243327B | 公開(公告)日: | 2018-08-31 |
| 發(fā)明(設(shè)計)人: | 陳虹宇;羅陽;苗寧 | 申請(專利權(quán))人: | 四川神琥科技有限公司 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06F21/62 |
| 代理公司: | 北京天奇智新知識產(chǎn)權(quán)代理有限公司 11340 | 代理人: | 郭霞 |
| 地址: | 610043 四川省成都市高新*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文件 安全 處理 方法 | ||
1.一種文件安全處理方法,其特征在于,包括:
判斷頁面文件的入侵方式,根據(jù)入侵方式確定相應(yīng)的特征提取和分類過程,通過特征提取和分類過程對移動終端頁面文件進(jìn)行安全檢測;
所述方法還包括:在所述特征提取前,首先確定腳本代碼在頁面文件中的位置,從頁面文件中將腳本代碼提取出來,如果該腳本代碼經(jīng)過編碼、壓縮和模糊處理,則還原原始的腳本代碼,最后根據(jù)特征提取算法提取特征向量集;
所述根據(jù)入侵方式確定相應(yīng)的特征提取和分類過程,進(jìn)一步包括,對于基于腳本代碼入侵的頁面文件,提取特征是基本單位為詞;對于基于非腳本代碼入侵方式實(shí)現(xiàn)的頁面文件,提取特征時,將頁面文件進(jìn)行劃分,然后進(jìn)行特征提取;根據(jù)兩種不同的特征提取方式,分別基于Bayes分類過程和判定樹分類過程,建立兩個不同的分類模型,然后采用并聯(lián)的方式,將兩個分類過程進(jìn)行組合;
所述從頁面文件中將腳本代碼提取出來,進(jìn)一步包括:
(1).打開頁面文件;
(2).初始化內(nèi)部數(shù)據(jù)結(jié)構(gòu);
(3).進(jìn)行目錄字典檢索,尋找活動字典入口地址;
(4).對可能含有腳本代碼的候選位置進(jìn)行搜索,并檢測字典條目的數(shù)據(jù)類型;
(5).如果其數(shù)據(jù)類型為預(yù)定義關(guān)鍵字集合中的元素,則此字典中便含有腳本代碼,對腳本代碼進(jìn)行提取;
(6).對腳本代碼進(jìn)行解壓;
對未知頁面文件進(jìn)行分類檢測時,首先從頁面文件中提取腳本代碼,將該頁面文件分為兩個部分:一個為內(nèi)嵌的腳本代碼,另一個部分為除腳本代碼以外剩余的頁面文件數(shù)據(jù);然后分別對頁面文件的兩個部分進(jìn)行檢測,利用Bayes算法構(gòu)建的識別模型對腳本代碼進(jìn)行檢測,利用判定樹算法構(gòu)建的識別模型對頁面文件的剩余數(shù)據(jù)進(jìn)行檢測;最后,將檢測結(jié)果在結(jié)果綜合模塊進(jìn)行處理,得到對該頁面文件的最終檢測結(jié)果;具體流程為:
基于腳本代碼入侵的特征向量集采用簡單實(shí)用的Bayes分類過程作為分類過程;分別計算未知頁面文件X屬于安全樣本集Cn的概率PN和頁面文件X屬于惡意樣本集的概率PM,然后將PN和PM進(jìn)行比較,得出頁面文件X最趨近的類別,從而判斷未知頁面文件X的類別;如果PM>PN則表示該頁面文件中含有惡意腳本代碼,反之,則該頁面文件中不含有惡意腳本代碼;
基于非腳本代碼入侵的頁面文件檢測前,其中Sample為訓(xùn)練樣本集,Vector為基于非腳本代碼入侵的特征向量集;
建立判定樹root根節(jié)點(diǎn);
若Sample都為正,返回label為+的單節(jié)點(diǎn)樹root;
如果Sample都為反,返回label為_的單節(jié)點(diǎn)樹root;
如果Vector為空,那么返回單節(jié)點(diǎn)root,label為Sample中最普遍的目標(biāo)向量值;
否則,對于Vector的每個可能值vi
在root下加一個新的分支vi,令Samplesi為Samplesi滿足Vector屬性值為vi的子集;
如果Samplesi為空,在這個新分支下加一個葉子節(jié)點(diǎn),節(jié)點(diǎn)的label為Sample中最普遍的目標(biāo)向量值;
否則在新分支下加一個子樹:
(Samplesi,目標(biāo)向量值,Vector),結(jié)束。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對于基于非腳本代碼入侵方式實(shí)現(xiàn)的頁面文件,提取訓(xùn)練樣本集的特征向量,所述訓(xùn)練樣本集分為兩類,基于非腳本代碼入侵的惡意文件樣本集和不含腳本代碼的安全文件樣本集;在特征提取時,分別提取兩個不同樣本集的特征向量集,根據(jù)預(yù)定的特征選擇算法,將兩個特征向量集進(jìn)行處理,以得到學(xué)習(xí)算法需要的特征向量集;然后根據(jù)學(xué)習(xí)算法和提取的特征向量集,采用判定樹分類過程建立識別模型;最后對未知頁面文件進(jìn)行識別;在對頁面文件進(jìn)行識別時,提取未知頁面文件的特征向量集,利用該特征向量集代替頁面文件進(jìn)行識別,然后將特征向量集作為識別器的輸入,識別器根據(jù)己建立的識別,對特征向量集進(jìn)行識別分類;最后得出未知頁面文件的分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川神琥科技有限公司,未經(jīng)四川神琥科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510792215.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計算機(jī)或計算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計算機(jī)系統(tǒng)或計算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程





