[發(fā)明專利]一種融合多源數(shù)據(jù)的釣魚網(wǎng)站識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110321608.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN113051500B | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 胡忠義;吳江;張碩果 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F40/289;G06F40/30;G06K9/62;G06N3/04 |
| 代理公司: | 武漢華之喻知識產(chǎn)權(quán)代理有限公司 42267 | 代理人: | 鄧彥彥;廖盈春 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 融合 數(shù)據(jù) 釣魚 網(wǎng)站 識別 方法 系統(tǒng) | ||
1.一種融合多源數(shù)據(jù)的釣魚網(wǎng)站識別方法,其特征在于,包括如下步驟:
確定釣魚網(wǎng)站和合法網(wǎng)站兩類訓(xùn)練樣本,為兩類樣本分別打上兩種不同的標(biāo)簽;
基于每個(gè)網(wǎng)站的統(tǒng)一資源定位符URL采集各個(gè)網(wǎng)站的多源特征數(shù)據(jù);并按照預(yù)設(shè)標(biāo)準(zhǔn)對采集到的URL多源特征數(shù)據(jù)選擇處理后得到每個(gè)網(wǎng)站URL多源特征的高維特征向量;
對每個(gè)網(wǎng)站URL進(jìn)行分詞操作,得到每個(gè)網(wǎng)站URL的詞向量矩陣,并對每個(gè)網(wǎng)站URL進(jìn)行分字操作,得到每個(gè)網(wǎng)站URL的字符級向量矩陣,將所述詞向量矩陣和字符級向量矩陣進(jìn)行拼接,并輸入到神經(jīng)模型訓(xùn)練和降維,得到每個(gè)網(wǎng)站URL的高維特征向量;對每個(gè)網(wǎng)站URL進(jìn)行分詞操作和對每個(gè)網(wǎng)站URL進(jìn)行分字操作,具體為:利用BERT技術(shù)對網(wǎng)站URL中的每個(gè)詞進(jìn)行向量化表示,獲取URL單詞級的語義特征,并構(gòu)建URL的單詞級特征矩陣;統(tǒng)計(jì)網(wǎng)站URL中包含的字符并構(gòu)成字符集合;基于所述字符集合對URL進(jìn)行獨(dú)熱編碼,并進(jìn)行padding操作形成同構(gòu)獨(dú)熱矩陣;將獨(dú)熱矩陣放入詞嵌入層進(jìn)行訓(xùn)練,抽取低維的稠密特征矩陣,該特征矩陣形狀與URL的單詞級特征矩陣的形狀一致;
將各個(gè)網(wǎng)站URL多源特征的高維特征向量和各個(gè)網(wǎng)站URL的高維特征向量拼接,得到各個(gè)網(wǎng)站的特征向量;
將所述各個(gè)網(wǎng)站的特征向量和各個(gè)網(wǎng)站的標(biāo)簽組合形成樣本數(shù)據(jù)集,將樣本數(shù)據(jù)集輸入到分類模型進(jìn)行訓(xùn)練,將訓(xùn)練好的分類模型作為釣魚網(wǎng)站識別模型;所述分類模型用于將接收到的網(wǎng)站分為釣魚網(wǎng)站和合法網(wǎng)站,以識別其中的釣魚網(wǎng)站;
結(jié)合采集的待識別網(wǎng)站的特征向量,基于所述釣魚網(wǎng)站識別模型對所述待識別網(wǎng)站進(jìn)行識別,判斷其是否屬于釣魚網(wǎng)站。
2.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)站識別方法,其特征在于,所述各個(gè)網(wǎng)站URL的多源特征數(shù)據(jù),包括:URL序列特征、網(wǎng)站內(nèi)容特征、網(wǎng)站代碼特征、搜索引擎優(yōu)化SEO網(wǎng)站對該網(wǎng)站的評價(jià)數(shù)據(jù)以及社交網(wǎng)站對該網(wǎng)站的轉(zhuǎn)發(fā)熱度。
3.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)站識別方法,其特征在于,所述按照預(yù)設(shè)標(biāo)準(zhǔn)對采集到的URL多源特征數(shù)據(jù)選擇處理后得到每個(gè)網(wǎng)站URL多源特征的高維特征向量,具體為:
基于Boruta方法對采集到的網(wǎng)站URL多源特征進(jìn)行特征選擇,其中強(qiáng)相關(guān)的特征向量納入第一特征向量集合,其余特征向量納入第二特征向量集合;基于LightGBM技術(shù)使用第二特征向量集合進(jìn)行釣魚網(wǎng)站識別模型訓(xùn)練,得到識別結(jié)果概率集合;將第一特征向量集合和識別結(jié)果概率集合進(jìn)行拼接形成網(wǎng)站URL多源特征的高維特征向量集合。
4.根據(jù)權(quán)利要求1所述的釣魚網(wǎng)站識別方法,其特征在于,所述神經(jīng)模型為CNN-LSTM模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110321608.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





