[發(fā)明專利]一種惡意網(wǎng)站的檢測方法、裝置、設(shè)備及存儲介質(zhì)在審

申請?zhí)枺?/td>	202011001306.0	申請日：	2020-09-22
公開（公告）號：	CN112100559A	公開（公告）日：	2020-12-18
發(fā)明（設(shè)計）人：	金相莉;方平	申請（專利權(quán)）人：	杭州安恒信息安全技術(shù)有限公司
主分類號：	G06F16/958	分類號：	G06F16/958;G06K9/46
代理公司：	北京集佳知識產(chǎn)權(quán)代理有限公司 11227	代理人：	郄晨芳
地址：	310000 浙江省杭州***	國省代碼：	浙江;33
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種惡意網(wǎng)站檢測方法裝置設(shè)備存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種惡意網(wǎng)站的檢測方法，包括：在目標網(wǎng)站的目標網(wǎng)頁加載完成后，確定出目標網(wǎng)頁的網(wǎng)頁截圖；根據(jù)網(wǎng)頁截圖中的采樣點確定出目標網(wǎng)頁的內(nèi)容類型，并根據(jù)內(nèi)容類型計算出目標網(wǎng)頁的網(wǎng)頁特征值；判斷預(yù)先根據(jù)惡意網(wǎng)站確定出的特征值數(shù)據(jù)庫中是否存在與網(wǎng)頁特征值相似度達到預(yù)設(shè)閾值的目標特征值；若是，則確定出目標網(wǎng)站為惡意網(wǎng)站。本方法在能夠降低對人力資源的消耗的基礎(chǔ)上，提高檢測惡意網(wǎng)站的準確度。本申請還公開了一種惡意網(wǎng)站的檢測裝置、設(shè)備及計算機可讀存儲介質(zhì)，均具有上述有益效果。

技術(shù)領(lǐng)域

本發(fā)明涉及網(wǎng)站檢測領(lǐng)域，特別涉及一種惡意網(wǎng)站的檢測方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)。

背景技術(shù)

隨著信息技術(shù)的快速發(fā)展，網(wǎng)絡(luò)上存在大量的色情、賭博、詐騙、釣魚、內(nèi)容盜版等非法運營的惡意網(wǎng)站，并且在惡意網(wǎng)站被關(guān)停以后，其運營者只要克隆一次惡意網(wǎng)站的源代碼，更換域名和服務(wù)器IP則又可以重新上線該網(wǎng)站。

現(xiàn)有技術(shù)中，主要是利用服務(wù)端爬蟲訪問目標網(wǎng)站，獲取目標網(wǎng)站的目標網(wǎng)頁的網(wǎng)頁內(nèi)容，然后基于網(wǎng)頁內(nèi)容通過瀏覽器端渲染的方式進行識別，從而確定出該目標網(wǎng)站是否為惡意網(wǎng)站。但是，由于利用服務(wù)端爬蟲獲取網(wǎng)頁內(nèi)容時，一般只能獲取到目標網(wǎng)頁的網(wǎng)頁框架，難以獲取到目標網(wǎng)頁中的文字圖像等實質(zhì)性內(nèi)容，因此使得對目標網(wǎng)站是否為惡意網(wǎng)站的判斷并不準確；并且惡意網(wǎng)站中往往設(shè)置有用于對抗服務(wù)端爬蟲訪問的技術(shù)，因此技術(shù)人員需要根據(jù)實際需求修改服務(wù)端爬蟲的源代碼，這又將造成對人力資源的極大消耗。

因此，如何在能夠降低對人力資源的消耗的基礎(chǔ)上，提高檢測惡意網(wǎng)站的準確度，是本領(lǐng)域技術(shù)人員目前需要解決的技術(shù)問題。

發(fā)明內(nèi)容

有鑒于此，本發(fā)明的目的在于提供一種惡意網(wǎng)站的檢測方法，能夠在能夠降低對人力資源的消耗的基礎(chǔ)上，提高檢測惡意網(wǎng)站的準確度；本發(fā)明的另一目的是提供一種惡意網(wǎng)站的檢測裝置、設(shè)備及計算機可讀存儲介質(zhì)，均具有上述有益效果。

為解決上述技術(shù)問題，本發(fā)明提供一種惡意網(wǎng)站的檢測方法，包括：

在目標網(wǎng)站的目標網(wǎng)頁加載完成后，確定出所述目標網(wǎng)頁的網(wǎng)頁截圖；

根據(jù)所述網(wǎng)頁截圖中的采樣點確定出所述目標網(wǎng)頁的內(nèi)容類型，并根據(jù)所述內(nèi)容類型計算出所述目標網(wǎng)頁的網(wǎng)頁特征值；

判斷預(yù)先根據(jù)惡意網(wǎng)站確定出的特征值數(shù)據(jù)庫中是否存在與所述網(wǎng)頁特征值相似度達到預(yù)設(shè)閾值的目標特征值；

若是，則確定出所述目標網(wǎng)站為惡意網(wǎng)站。

優(yōu)選地，所述根據(jù)所述網(wǎng)頁截圖中的采樣點確定出所述目標網(wǎng)頁的內(nèi)容類型，并根據(jù)所述內(nèi)容類型計算出所述目標網(wǎng)頁的網(wǎng)頁特征值的過程，具體包括：

計算出所述網(wǎng)頁截圖中的多個所述采樣點的RGB值的RGB方差；

當所述RGB方差小于第一閾值時，確定出所述目標網(wǎng)頁的所述內(nèi)容類型為文本類型，根據(jù)所述目標網(wǎng)頁中的特征文本計算出所述網(wǎng)頁特征值；

當所述RGB方差大于第二閾值時，確定出所述目標網(wǎng)頁的所述內(nèi)容類型為圖像類型，根據(jù)所述目標網(wǎng)頁中的圖像元素計算出所述網(wǎng)頁特征值；

當同一所述采樣點的RGB值在預(yù)設(shè)時間段內(nèi)發(fā)生變化時，確定出所述目標網(wǎng)頁的所述內(nèi)容類型為視頻類型，將所述目標網(wǎng)頁轉(zhuǎn)換為靜態(tài)網(wǎng)頁并計算出所述網(wǎng)頁特征值。

優(yōu)選地，所述當所述RGB方差小于第一閾值時，確定出所述目標網(wǎng)頁的所述內(nèi)容類型為文本類型，根據(jù)所述目標網(wǎng)頁中的特征文本計算出所述網(wǎng)頁特征值的過程，具體包括：

當所述RGB方差小于所述第一閾值時，確定出所述目標網(wǎng)頁的所述內(nèi)容類型為所述文本類型；

提取所述目標網(wǎng)頁中的所述特征文本，并按照預(yù)設(shè)規(guī)則為所述特征文本的各部分分別設(shè)置對應(yīng)的權(quán)重；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州安恒信息安全技術(shù)有限公司，未經(jīng)杭州安恒信息安全技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011001306.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。