[發明專利]網頁危險性的識別系統有效
| 申請號: | 201210507528.9 | 申請日: | 2012-11-30 |
| 公開(公告)號: | CN103049483A | 公開(公告)日: | 2013-04-17 |
| 發明(設計)人: | 董毅;韓洪偉;謝軍樣;劉緒平;唐杰 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/56 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 危險性 識別 系統 | ||
技術領域
本發明實施例涉及網頁安全技術領域,具體涉及一種網頁危險性的識別系統。
背景技術
釣魚網站主要是通過仿冒真實網站的URL地址或是頁面內容,偽裝成銀行及電子商務等類型的網站,或是利用真實網站服務器程序上的漏洞,在該網站的某些網頁中插入危險的網頁代碼,以此來騙取用戶銀行或信用卡賬號、密碼等私人資料。
釣魚網頁中包含著許多敏感的特征,例如,金融欺詐類的釣魚網頁會在文字、圖片等方面仿冒官網,或是在真實網頁中插入虛假票務、虛假中獎、假冒網銀、虛假購物等信息,這些特征大多以文本串的形式出現在網頁中。
目前對釣魚網頁識別的方法,主要是通過人工審核釣魚網頁,以收集一些簡單的釣魚網站的文本特征,供瀏覽器插件依據這些文本特征對網頁內容進行判斷,過濾掉這些已報告的攻擊網站。
但是,現今釣魚網站的存活期越來越短,新的釣魚網頁層出不窮,需要審核的網頁量太大;并且釣魚網站的特征變化加快,按照傳統的人工審核的方式,提取信息的效率會比較低。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的網頁危險性的識別系統。
根據本發明,提供了一種網頁危險性的識別系統,包括:
網頁收集服務器、客戶端、網頁存儲服務器、網頁危險性識別引擎;
所述網頁收集服務器和客戶端收集待檢測網頁,并發送到網頁處理服務器;
所述網頁危險性識別引擎從所述網頁存儲服務器提取待檢測網頁并對待檢測網頁的危險性進行識別;
所述網頁危險性識別引擎包括:
候選表征信息組成模塊,適于收集安全網頁和危險網頁,將所述安全網頁和危險網頁所包含的各個字符依次組成多個候選表征信息;
合并模塊,適于合并符合預設相似條件的候選表征信息;
篩選模塊,適于統計合并后的各個候選表征信息對劃分安全網頁和危險網頁的表征參數,并依據所述表征參數篩選多個候選表征信息作為網頁危險性的表征信息;
模型訓練模塊,適于依據所述表征信息訓練網頁危險性的預測模型;
識別模塊,適于依據所述預測模型對待檢測網頁的危險性進行識別。
本發明實施例中,所述候選表征信息組成模塊包括:
第一提取子模塊,適于提取安全網頁和危險網頁所對應的頁面內容;
第二提取子模塊,適于以連續的多個漢字或一個英文單詞作為一個候選表征信息,從所述頁面內容中提取多個候選表征信息。
本發明實施例中,所述合并模塊包括:
公共子串提取子模塊,適于針對任意兩個候選表征信息,提取所述兩個候選表征信息的最長公共子串;
范圍判斷子模塊,判斷所述最長公共子串的字符個數是否符合第一預設范圍,且所述兩個候選表征信息在安全網頁和危險網頁中總共出現的次數的差值是否符合第二預設范圍;
信息刪除子模塊,適于當所述范圍判斷子模塊的結果為是時,刪除在各個安全網頁和危險網頁中總共出現的次數較小的候選表征信息。
本發明實施例中,所述公共子串提取子模塊包括:
矩陣形成子單元,適于將兩個候選表征信息所包含的字符分別以行和列的形式組成矩陣;
賦值子單元,適于針對矩陣中的各個節點,若對應的行列字符相同,則設置節點值為1,若不同,則設置節點值為0,并以該節點的節點值與左上角的所有節點的節點值之和對該節點的節點值重新賦值;
字符提取子單元,適于提取節點值最大的節點所在對角線中,連續的、節點值非0的節點對應的字符作為最長公共子串。
本發明實施例中,所述表征參數包括表征信息與危險網頁的相關性參數,以及表征信息對劃分安全網頁和危險網頁的權重參數;
所述篩選模塊包括:
相關性篩選子模塊,適于分別統計合并后的各個候選表征信息與危險網頁的相關性參數,并篩選所述相關性參數從大到小排序靠前的候選表征信息;
權重篩選子模塊,適于分別統計篩選后的各個候選表征信息對劃分安全網頁和危險網頁的權重參數,并篩選所述權重參數從大到小排序靠前的候選表征信息。
本發明實施例中,所述相關性篩選子模塊依據合并后的各個候選表征信息在安全網頁和危險網頁中分別出現的次數,通過卡方檢驗法,計算各個候選表征信息與危險網頁的相關性參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210507528.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于地源熱泵的大面積育苗系統
- 下一篇:杯苗培育用裝杯裝置





