[發明專利]惡意網站快速識別方法有效
| 申請號: | 201910177897.8 | 申請日: | 2019-03-10 |
| 公開(公告)號: | CN109922065B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 古元;陳耀遠;陳思萌;毛華陽;華仲鋒;于龍;林飛;王娜;熊翱 | 申請(專利權)人: | 北京亞鴻世紀科技發展有限公司;北京郵電大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F40/284 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100095 北京市海淀區高里*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 惡意 網站 快速 識別 方法 | ||
1.惡意網站快速識別方法,其特征在于包含詞庫匹配篩選步驟,前端劫持判別篩選步驟,可見區域惡意信息的判別篩選步驟:
1)詞庫匹配篩選步驟
對于惡意網站,利用詞庫的快速匹配,初步篩選出含有惡意信息的網站;
①構建詞庫
編制惡意詞語,人工收集100個惡意信息詞;
導入維基百科公開的語料;
應用word2vec模型為已編制的惡意詞語從維基百科公開的語料中擴充相似的惡意詞語,針對每個惡意詞語求取50個近義詞,生成擴充的惡意詞語;
已編制的惡意詞語加擴充的惡意詞語在去除重復的情況下生成惡意詞的詞庫;
②網頁文本提取
由文本提取器將被檢測網站的網頁的文本內容提取出來生成網頁文本內容;
③詞庫匹配
由詞庫匹配器將網頁文本內容與惡意詞的詞庫進行匹配,當網頁文本內容包含惡意詞的詞庫中的惡意詞時,判定為可疑網站;當網頁文本內容未包含惡意詞的詞庫中的惡意詞時,判定為正常網站;
④將可疑網站的網址作為被測網站傳送給JS提取器;
2)前端劫持判別篩選
①通過JS提取器得到被測網站所有JS數據,:
②將被測網站所有JS數據輸入遠程IP歸屬地判別器,遠程IP歸屬地判別器設置不同地區的IP地址來響應網站的JS代碼,當不同IP歸屬地訪問同一網站的同一界面時產生不同跳轉時,判定網站遭遇網絡劫持;當不同IP歸屬地訪問同一網站的同一界面時產生相同跳轉時,判定網站未遭遇網絡劫持;
③將被測網站所有JS數據輸入Referer關鍵字判別器,Referer關鍵字判別器分別通過baidu、google、yahoo、bing、soso、360搜索引擎爬蟲去調用被測網站,當爬蟲去訪問時會調用browserRedirect()函數,browserRedirect()函數用來實現跳轉判斷,當browserRedirect()函數調用與直接訪問被測網站所響應的JS一致,判定網站未遭遇網絡劫持;當browserRedirect()函數調用與直接訪問被測網站所響應的JS不一致,判定網站遭遇網絡劫持;
④將被測網站所有JS數據輸入user-agent關鍵字判別器,user-agent關鍵字判別器通過ipad、iphone os、midp、ucweb、android移動端模擬設備調用被測網站,同時通過web直接訪問被測網站,當通過ipad、iphone os、midp、ucweb、android移動端模擬設備調用被測網站與通過web直接訪問被測網站所響應的JS一致,判定網站未遭遇網絡劫持;當通過ipad、iphone os、midp、ucweb、android移動端模擬設備調用被測網站與通過web直接訪問被測網站所響應的JS不一致,判定網站遭遇網絡劫持;
⑤遠程IP歸屬地判別器,Referer關鍵字判別器,user-agent關鍵字判別器組成前端劫持判別系統;前端劫持判別系統將遭遇網絡劫持的網站直接判定為遭遇劫持,前端劫持判別系統將未遭遇網絡劫持的網站直接判定為未遭遇劫持,前端劫持判別系統將未遭遇劫持的網站的網址傳送給惡意信息判別器的可見區域提取器和不可見區域文本提取器;
3)可見區域惡意信息的判別篩選
①提取網頁可見區域
由可見區域提取器得到未遭遇劫持的網站的網頁源碼的JS數據集合和網站框架源碼的JS數據集合,其中包括JS框架F與文本集合D;每個JS框架中都含有標題及若干script元素,提取網頁可見區域的具體步驟為:
a) 通過Xpath元素定位網頁JS框架F中標題的位置,將其作為提取區域的起點,以10個元素為步長確定提取區域的末點,若提取區域大小不足10則以最后一個元素為末點,并求出可見區域的中點;
b) 獲得可見區域的位置后,便得到可見區域的起點、中點、末點的script元素、、;
c) 遍歷網頁中的n個JS數據集合,n為JS數據的總數,尋找相同的script元素、、;
d) 當在第i個JS框架 中找到了相同元素、、,則提取第i個JS框架中文本內容所對應元素區域的內容至,此部分內容為網頁響應的頁面顯示內容,即為可見區域網頁內容d;
② 可見區域惡意信息分析
a) 建立分類器
標注惡意和非惡意網站文本內容的樣本x,設網站類別為c={c1,c2},其中惡意網站為c1,正規網站為c2;訓練貝葉斯分類模型,生成分類器,通過分類器可以求出網站文本內容屬于兩個類別的概率,;
b) 對可見區域內容分類
將未遭遇劫持的網站的可見區域網頁內容d輸入分類器中,求得可見區域網頁內容d屬于惡意網站的概率;;
c) 由不可見區域文本提取器提取未遭遇劫持的網站的不可見區域的文本內容,將不可見區域的文本內容輸入分類器,求得不可見區域的文本內容s屬于惡意網站的概率,;
d) 計算惡意信息評價函數f(s,d):,
式中和為重要性權值,設置=0.7,=0.3;其中;
上式中v代表網站中的文本內容,代表文本屬于惡意網站類的概率,由分類器求得,用來判斷網站文本v是否屬于惡意網站c1類所包含的文本;當,則表明網站文本v屬于惡意網站c1類,小于0時網站文本v屬于正規網站c2類;
e) 計算得到網站的惡意信息評分f(s,d)后,由閾值設定器設置閾值thr來判別惡意網站;當f(s,d)大于thr時,判定為惡意網站;當f(s,d)小于thr時為正規網站;閾值的默認設置為0.7。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京亞鴻世紀科技發展有限公司;北京郵電大學,未經北京亞鴻世紀科技發展有限公司;北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910177897.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能鎖管理系統
- 下一篇:一種通信網絡中基于時隙特征的動態水印嵌入及檢測方法





