[發(fā)明專利]網(wǎng)頁危險性的識別系統(tǒng)有效
| 申請?zhí)枺?/td> | 201210507528.9 | 申請日: | 2012-11-30 |
| 公開(公告)號: | CN103049483A | 公開(公告)日: | 2013-04-17 |
| 發(fā)明(設(shè)計)人: | 董毅;韓洪偉;謝軍樣;劉緒平;唐杰 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/56 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100088 北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 危險性 識別 系統(tǒng) | ||
1.一種網(wǎng)頁危險性的識別系統(tǒng),包括:
網(wǎng)頁收集服務(wù)器、客戶端、網(wǎng)頁存儲服務(wù)器、網(wǎng)頁危險性識別引擎;
所述網(wǎng)頁收集服務(wù)器和客戶端收集待檢測網(wǎng)頁,并發(fā)送到網(wǎng)頁處理服務(wù)器;
所述網(wǎng)頁危險性識別引擎從所述網(wǎng)頁存儲服務(wù)器提取待檢測網(wǎng)頁并對待檢測網(wǎng)頁的危險性進(jìn)行識別;
所述網(wǎng)頁危險性識別引擎包括:
候選表征信息組成模塊,適于收集安全網(wǎng)頁和危險網(wǎng)頁,將所述安全網(wǎng)頁和危險網(wǎng)頁所包含的各個字符依次組成多個候選表征信息;
合并模塊,適于合并符合預(yù)設(shè)相似條件的候選表征信息;
篩選模塊,適于統(tǒng)計合并后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的表征參數(shù),并依據(jù)所述表征參數(shù)篩選多個候選表征信息作為網(wǎng)頁危險性的表征信息;
模型訓(xùn)練模塊,適于依據(jù)所述表征信息訓(xùn)練網(wǎng)頁危險性的預(yù)測模型;
識別模塊,適于依據(jù)所述預(yù)測模型對待檢測網(wǎng)頁的危險性進(jìn)行識別。
2.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述候選表征信息組成模塊包括:
第一提取子模塊,適于提取安全網(wǎng)頁和危險網(wǎng)頁所對應(yīng)的頁面內(nèi)容;
第二提取子模塊,適于以連續(xù)的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內(nèi)容中提取多個候選表征信息。
3.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述合并模塊包括:
公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串;
范圍判斷子模塊,判斷所述最長公共子串的字符個數(shù)是否符合第一預(yù)設(shè)范圍,且所述兩個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)的差值是否符合第二預(yù)設(shè)范圍;
信息刪除子模塊,適于當(dāng)所述范圍判斷子模塊的結(jié)果為是時,刪除在各個安全網(wǎng)頁和危險網(wǎng)頁中總共出現(xiàn)的次數(shù)較小的候選表征信息。
4.根據(jù)權(quán)利要求3所述的識別系統(tǒng),所述公共子串提取子模塊包括:
矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣;
賦值子單元,適于針對矩陣中的各個節(jié)點(diǎn),若對應(yīng)的行列字符相同,則設(shè)置節(jié)點(diǎn)值為1,若不同,則設(shè)置節(jié)點(diǎn)值為0,并以該節(jié)點(diǎn)的節(jié)點(diǎn)值與左上角的所有節(jié)點(diǎn)的節(jié)點(diǎn)值之和對該節(jié)點(diǎn)的節(jié)點(diǎn)值重新賦值;
字符提取子單元,適于提取節(jié)點(diǎn)值最大的節(jié)點(diǎn)所在對角線中,連續(xù)的、節(jié)點(diǎn)值非0的節(jié)點(diǎn)對應(yīng)的字符作為最長公共子串。
5.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述表征參數(shù)包括表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),以及表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù);
所述篩選模塊包括:
相關(guān)性篩選子模塊,適于分別統(tǒng)計合并后的各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù),并篩選所述相關(guān)性參數(shù)從大到小排序靠前的候選表征信息;
權(quán)重篩選子模塊,適于分別統(tǒng)計篩選后的各個候選表征信息對劃分安全網(wǎng)頁和危險網(wǎng)頁的權(quán)重參數(shù),并篩選所述權(quán)重參數(shù)從大到小排序靠前的候選表征信息。
6.根據(jù)權(quán)利要求5所述的識別系統(tǒng),所述相關(guān)性篩選子模塊依據(jù)合并后的各個候選表征信息在安全網(wǎng)頁和危險網(wǎng)頁中分別出現(xiàn)的次數(shù),通過卡方檢驗法,計算各個候選表征信息與危險網(wǎng)頁的相關(guān)性參數(shù)。
7.根據(jù)權(quán)利要求5所述的識別系統(tǒng),所述權(quán)重篩選子模塊依據(jù)篩選后的各個候選表征信息在各個安全網(wǎng)頁和各個危險網(wǎng)頁中分別出現(xiàn)的次數(shù),構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù),并依據(jù)所述分類函數(shù)確定各個候選表征信息的權(quán)重參數(shù)。
8.根據(jù)權(quán)利要求7所述的識別系統(tǒng),通過支持向量機(jī)線性分類器構(gòu)建安全網(wǎng)頁和危險網(wǎng)頁的分類函數(shù)。
9.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述預(yù)測模型包括各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;
所述識別模塊包括:
次數(shù)統(tǒng)計子模塊,適于統(tǒng)計各表征信息在待預(yù)測網(wǎng)頁中出現(xiàn)的次數(shù),并輸入所述預(yù)測模型;
識別結(jié)果生成子模塊,適于所述預(yù)測模型依據(jù)各表征信息在待預(yù)測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性識別結(jié)果。
10.根據(jù)權(quán)利要求1所述的識別系統(tǒng),所述預(yù)測模型通過隨機(jī)森林分類器訓(xùn)練,所述預(yù)測模型包括多個決策樹子模型,各決策樹子模型分別包括表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系;
所述識別結(jié)果生成子模塊進(jìn)一步包括:
預(yù)測結(jié)果生成子單元,適于各決策樹子模型依據(jù)各表征信息在待預(yù)測網(wǎng)頁中出現(xiàn)的次數(shù),以及各表征信息在網(wǎng)頁中出現(xiàn)的次數(shù)與網(wǎng)頁危險性的對應(yīng)關(guān)系,生成待檢測網(wǎng)頁的危險性預(yù)測結(jié)果;
預(yù)測結(jié)果處理子單元,適于將各決策樹子模型生成的危險性預(yù)測結(jié)果進(jìn)行加權(quán)平均,將加權(quán)平均的結(jié)果作為待檢測網(wǎng)頁的危險性識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210507528.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于地源熱泵的大面積育苗系統(tǒng)
- 下一篇:杯苗培育用裝杯裝置





