[發明專利]基于自適應異構多分類模型的釣魚網站檢測方法和系統有效
| 申請號: | 201810549417.1 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108965245B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 臧天寧;強倩;杜飛;周淵 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;北京銳馳信安技術有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06K9/62 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 祗志潔 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 異構多 分類 模型 釣魚 網站 檢測 方法 系統 | ||
1.一種基于自適應異構多分類模型的釣魚網站檢測方法,其特征在于,所述方法包括:
步驟1,對相同類別的釣魚網站樣本集D,采用留一法交叉驗證進行訓練集和測試集的分類;設第j個訓練集表示為Dj,對應的第j個測試集表示為每個樣本包含樣本記錄和樣本標簽;樣本記錄中包含網站的URL和網頁信息,樣本標簽用于標記是否為釣魚網站;j為正整數;
步驟2,通過線性加成構建自適應異構多分類模型H,如下所示:
其中,T為基分類算法的個數,hi為第i種基分類算法,ωi為第i種基分類算法的權重參數,為調整因子,x表示樣本記錄;
基分類算法包括:h1代表域名詞素特征分類算法,是根據域名詞素判斷是否為釣魚網站;h2代表主題索引特征分類算法,是根據網頁中主題標簽下內容判斷是否為釣魚網站;h3代表內容相似性特征分類算法,是根據網頁中內容標簽下內容進行相似性比較判斷是否為釣魚網站;h4代表結構樣式特征分類算法,是根據源代碼的結構判斷是否為釣魚網站;h5代表視覺規則特征分類算法,是根據網頁的圖標、配色、圖片判斷是否為釣魚網站;
所述的基分類算法表征為線性函數,各分類算法的參數為獨立同分布;
步驟3,多分類模型H的輸入是各基分類算法的輸入,輸出是樣本標簽;對于訓練集Dj,從每個樣本的樣本記錄中提取每個基分類算法相應的特征作為輸入;
步驟4,基于訓練集Dj,采用機器學習算法對各基分類算法的參數以及多分類模型H中的ωi,進行訓練和參數求解;
采用極大似然估計法求解各基分類算法的參數,采用最大期望算法對多分類模型H中的參數ωi,進行迭代求解;
步驟5,在測試集上對多分類模型H進行測試和優化,直到各基分類算法的參數和多分類模型H中的參數ωi,收斂,對多分類模型H的機器學習算法結束;
步驟6,由最終得到的各基分類算法的參數和多分類模型H中的參數ωi,得到該類釣魚網站的檢測模型H’;
步驟7,獲取待檢測網站的記錄,包括網站的URL和網頁信息,輸入檢測模型H’判斷是否為釣魚網站。
2.根據權利要求1所述的方法,其特征在于,所述的樣本集D的規模不能低于100。
3.根據權利要求1或2所述的方法,其特征在于,所述的步驟1中,訓練集和測試集表示如下:
第j個訓練集Dj={(x1,y1),(x2,y2),...,(xm,ym)},1≤j≤n,1<m<n;
對應的第j個測試集
其中,n為D中樣本個數,m為Dj中的樣本個數,D/Dj表示從集合D中去除Dj;第i個樣本(xi,yi)中包含第i個樣本的記錄xi和標簽yi。
4.根據權利要求1所述的方法,其特征在于,所述的步驟5中,當多分類模型H中的參數ωi,無法收斂時,修正樣本標簽,更新訓練集樣本,重新執行步驟4的訓練過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;北京銳馳信安技術有限公司,未經國家計算機網絡與信息安全管理中心;北京銳馳信安技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810549417.1/1.html,轉載請聲明來源鉆瓜專利網。





