[發明專利]用于惡意URL檢測的在線主動機器學習方法有效
| 申請號: | 201911010913.0 | 申請日: | 2019-10-23 |
| 公開(公告)號: | CN110766165B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 王子涵;翟婷婷 | 申請(專利權)人: | 揚州大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F16/955;H04L43/08 |
| 代理公司: | 南京蘇科專利代理有限責任公司 32102 | 代理人: | 董旭東;陳棟智 |
| 地址: | 225000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 惡意 url 檢測 在線 主動 機器 學習方法 | ||
1.一種用于惡意URL檢測的在線主動機器學習方法,其特征在于,包括以下步驟:
步驟1)第t輪,t=1,2,...∞,當互聯網用戶要訪問一個URL時,首先利用自動特征提取器,對該URL進行分析,提取出詞匯特征、基于主機的特征和DNS特征,將所有的特征連接在一起,構成該URL的特征向量xt;
步驟2)使用最新的分類器wt對xt進行在線預測:其中sgn是符號函數;如果則預測該URL是惡意的,向用戶發出警告;否則,預測該URL是正常的;
步驟3)在線預測結束后,進入標記決策階段,判斷是否對當前的URL進行標記;記Zt表示標記決策變量;如果Zt=1,則請網絡安全專家進行標記,從而得到該URL的真實類標記yt∈{+1,-1};如果Zt=0,則決定不標記,不更新在線分類器,然后進入到步驟5),標記決策程序具體步驟如下:
3-1)接收到當前URL的特征向量xt;
3-2)計算η是學習步長參數,其中wt是當前的預測模型,矩陣Ht-1是自適應次梯度算法中所維護的對角矩陣,存儲當前特征的頻度信息以衡量特征的辨別能力;
3-3)令γt=pt-vt;
3-4)如果γt>0,則從參數為δ/(δ+γt)的伯努利分布中提取一個隨機量Zt∈{0,1};如果γt≤0,則Zt=1;其中δ>0是采樣參數;
步驟3-2)中,pt表示當前xt被預測的置信度,pt的值越小,表明預測的置信度越小;vt則表示當前xt中特征的辨別能力,vt的值越小,意味著xt中的非零特征出現的頻率越高,表明xt中特征的辨別能力越弱;
步驟4)獲得完整的URL數據信息(xt,yt)后,利用在線模型更新程序修正當前的分類器wt,得到最新的分類器wt+1,具體步驟如下:
4-1)接收到完整的URL數據信息(xt,yt);
4-2)計算得到損失函數ft(w)在當前wt處的次梯度其中是鉸鏈損失,衡量對(xt,yt)預測的不準確程度;
4-3)將t=1時刻到當前時刻所獲得的所有次梯度信息gt都存儲在矩陣G1:t=[g1?g2?…gt]中,根據該矩陣計算每個特征i的頻度信息st,i=||G1:t,i||2,其中G1:t,i表示矩陣G1:t的第i個行向量,st,i是向量st的第i個元素;
4-4)將特征頻度信息存儲在對角矩陣Ht=αI+diag(st)中,其中diag(st)表示將向量st的每個元素依次放在對角矩陣的主對角線上,α是一個預定義常數,I是單位陣;
4-5)設置函數選擇如下一種更新規則對預測模型進行在線更新:
(a)ARDA更新規則:
(b)ACMD更新規則:
其中η是學習步長;函數是正則化函數,用于控制模型w的復雜度,參數λ是一個預定義的常數;表示截止到t時刻邀請專家進行標記的次數,k為迭代變量;是w和wt之間關于函數ψt的Bregman距離,定義如下:
其中表示函數ψt在wt處的梯度;
步驟5)回到步驟1),等待用戶瀏覽器發出第t+1輪的URL請求。
2.根據權利要求1所述的用于惡意URL檢測的在線主動機器學習方法,其特征在于,在運行前需要對在線預測模型和頻度信息矩陣進行初始化,包括兩種初始化方法:一種是沒有任何先驗知識的情況下,直接令w1=0和H0=αI,此時方法從零開始學習;另一種是利用用戶黑名單列表中的信息構建一個同時包含惡意和正常URLs的訓練集,基于該訓練集利用全監督的自適應次梯度算法得到初始預測模型w1和H0。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于揚州大學,未經揚州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911010913.0/1.html,轉載請聲明來源鉆瓜專利網。





