[發(fā)明專利]一種網(wǎng)站識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011399531.4 | 申請(qǐng)日: | 2020-12-04 |
| 公開(公告)號(hào): | CN112565250B | 公開(公告)日: | 2022-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 康雅萍;陳熠;胡鐵 | 申請(qǐng)(專利權(quán))人: | 中國移動(dòng)通信集團(tuán)內(nèi)蒙古有限公司;中國移動(dòng)通信集團(tuán)有限公司 |
| 主分類號(hào): | H04L9/40 | 分類號(hào): | H04L9/40;H04L41/14;G06F16/33;G06F16/35;G06F40/216;G06F40/284;G06K9/62 |
| 代理公司: | 北京東方億思知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11258 | 代理人: | 趙秀芹 |
| 地址: | 010010 內(nèi)蒙古*** | 國省代碼: | 內(nèi)蒙古;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)站 識(shí)別 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
本申請(qǐng)公開了一種網(wǎng)站識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。該網(wǎng)站識(shí)別方法包括:獲取待識(shí)別網(wǎng)站的網(wǎng)頁;獲取網(wǎng)頁的第一文本內(nèi)容和待識(shí)別網(wǎng)頁截圖;提取待識(shí)別網(wǎng)頁截圖的第二文本內(nèi)容;提取第一文本內(nèi)容的第一特征向量和第二文本內(nèi)容的第二特征向量;將第一特征向量輸入至第一預(yù)設(shè)識(shí)別模型,得到待識(shí)別網(wǎng)站的第一網(wǎng)站識(shí)別類型;將第二特征向量輸入至第二預(yù)設(shè)識(shí)別模型,得到待識(shí)別網(wǎng)站的第二網(wǎng)站識(shí)別類型;根據(jù)第一網(wǎng)站識(shí)別類型和第二網(wǎng)站識(shí)別類型,得到待識(shí)別網(wǎng)站的目標(biāo)網(wǎng)站識(shí)別類型。采用本申請(qǐng)?zhí)峁┑木W(wǎng)站識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠有效提高網(wǎng)站識(shí)別結(jié)果的準(zhǔn)確性,提高網(wǎng)站識(shí)別結(jié)果的成功率。
技術(shù)領(lǐng)域
本申請(qǐng)涉及互聯(lián)網(wǎng)安全技術(shù)領(lǐng)域,具體涉及一種網(wǎng)站識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
釣魚網(wǎng)站作為一種欺騙用戶的虛假網(wǎng)站,可以仿冒真實(shí)網(wǎng)站欺騙用戶或者竊取訪問者提交的賬號(hào)、密碼、資金等私密信息和財(cái)產(chǎn)。故而,為了提高用戶的私密信息和財(cái)產(chǎn)的安全性,如何識(shí)別釣魚網(wǎng)站也變得尤為重要。
現(xiàn)階段,通常獲取待識(shí)別網(wǎng)站的網(wǎng)頁文本內(nèi)容,基于該待識(shí)別網(wǎng)站的文本內(nèi)容識(shí)別該網(wǎng)站是否是釣魚網(wǎng)站。但是,現(xiàn)在很多釣魚網(wǎng)站的網(wǎng)頁文本內(nèi)容會(huì)被用JS(JavaScript)加密技術(shù)進(jìn)行加密、或者網(wǎng)站的網(wǎng)頁文本內(nèi)容中會(huì)包含有大量正常文本的隱藏DIV(DIVision,圖層)。這樣,會(huì)導(dǎo)致釣魚網(wǎng)站的一些文本內(nèi)容無法被獲取到,如此,會(huì)導(dǎo)致網(wǎng)站識(shí)別結(jié)果的準(zhǔn)確性較低。
發(fā)明內(nèi)容
本申請(qǐng)實(shí)施例的目的是提供一種網(wǎng)站識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),能夠解決現(xiàn)有技術(shù)中網(wǎng)站識(shí)別結(jié)果的準(zhǔn)確性較低的技術(shù)問題。
本申請(qǐng)的技術(shù)方案如下:
第一方面,提供一種網(wǎng)站識(shí)別方法,包括:
獲取待識(shí)別網(wǎng)站的網(wǎng)頁;
獲取網(wǎng)頁的第一文本內(nèi)容和待識(shí)別網(wǎng)頁截圖;
提取待識(shí)別網(wǎng)頁截圖的第二文本內(nèi)容;
提取第一文本內(nèi)容的第一特征向量和第二文本內(nèi)容的第二特征向量;
將第一特征向量輸入至第一預(yù)設(shè)識(shí)別模型,得到待識(shí)別網(wǎng)站的第一網(wǎng)站識(shí)別類型;第一預(yù)設(shè)識(shí)別模型基于網(wǎng)站類型和網(wǎng)站網(wǎng)頁的文本內(nèi)容的特征向量訓(xùn)練得到;
將第二特征向量輸入至第二預(yù)設(shè)識(shí)別模型,得到待識(shí)別網(wǎng)站的第二網(wǎng)站識(shí)別類型;第二預(yù)設(shè)識(shí)別模型基于網(wǎng)站類型和網(wǎng)站網(wǎng)頁的網(wǎng)頁截圖中的文本內(nèi)容的特征向量訓(xùn)練得到;
根據(jù)第一網(wǎng)站識(shí)別類型和第二網(wǎng)站識(shí)別類型,得到待識(shí)別網(wǎng)站的目標(biāo)網(wǎng)站識(shí)別類型。
在一些實(shí)施例中,獲取待識(shí)別網(wǎng)站的網(wǎng)頁之前,還包括:
提取用戶上網(wǎng)日志中的網(wǎng)站域名;
確定網(wǎng)站域名是否屬于預(yù)設(shè)已識(shí)別域名集合;
在網(wǎng)站域名不屬于預(yù)設(shè)已識(shí)別域名集合的情況下,將網(wǎng)站域名確定為待識(shí)別網(wǎng)站;
獲取待識(shí)別網(wǎng)站的網(wǎng)頁,包括:
控制模擬客戶端訪問待識(shí)別網(wǎng)站的網(wǎng)頁。
在一些實(shí)施例中,獲取網(wǎng)頁的第一文本內(nèi)容,包括:
獲取網(wǎng)頁的超文本標(biāo)記語言HTML文件;
將HTML文件確定為第一文本內(nèi)容。
在一些實(shí)施例中,第一預(yù)設(shè)識(shí)別模型包括第一預(yù)設(shè)子識(shí)別模型、第二預(yù)設(shè)子識(shí)別模型中的至少一個(gè);
提取第一文本內(nèi)容的第一特征向量之前,還包括:
對(duì)HTML文件進(jìn)行分詞處理,得到HTML文件的第一詞集;
提取第一文本內(nèi)容的第一特征向量,包括如下至少一項(xiàng):
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國移動(dòng)通信集團(tuán)內(nèi)蒙古有限公司;中國移動(dòng)通信集團(tuán)有限公司,未經(jīng)中國移動(dòng)通信集團(tuán)內(nèi)蒙古有限公司;中國移動(dòng)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011399531.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測(cè)方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計(jì)算設(shè)備
- 一種網(wǎng)站識(shí)別方法及裝置
- 網(wǎng)站風(fēng)險(xiǎn)評(píng)估方法及裝置
- 網(wǎng)站版權(quán)時(shí)間的管理方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識(shí)別方法
- 網(wǎng)站應(yīng)用框架指紋識(shí)別的方法、設(shè)備、裝置及介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





