[發(fā)明專利]網(wǎng)頁暗鏈檢測方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201710316339.6 | 申請日: | 2017-05-05 |
| 公開(公告)號: | CN107273416B | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設(shè)計(jì))人: | 劉毅 | 申請(專利權(quán))人: | 深信服科技股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/35 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)頁 檢測 方法 裝置 計(jì)算機(jī) 可讀 存儲 介質(zhì) | ||
本發(fā)明公開了一種網(wǎng)頁暗鏈檢測方法,包括:獲取預(yù)設(shè)網(wǎng)頁分類模型的訓(xùn)練集;獲取待檢測網(wǎng)頁的文本特征向量和訓(xùn)練集中的網(wǎng)頁的文本特征向量;基于鄰近算法從訓(xùn)練集中選取若干個(gè)與待檢測網(wǎng)頁的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁的文本特征向量,作為待檢測網(wǎng)頁的文本特征向量的鄰近向量,并根據(jù)網(wǎng)頁分類模型確定鄰近向量對應(yīng)的網(wǎng)頁類型,作為待檢測網(wǎng)頁的候選網(wǎng)頁類型;分別計(jì)算待檢測網(wǎng)頁屬于每個(gè)候選網(wǎng)頁類型的概率;判斷概率最大值對應(yīng)的候選網(wǎng)頁類型屬于正例樣本還是負(fù)例樣本,若屬于負(fù)例樣本,則判定待檢測網(wǎng)頁中含有暗鏈。本發(fā)明還公開了一種網(wǎng)頁暗鏈檢測裝置和一種計(jì)算機(jī)可讀存儲介質(zhì)。本發(fā)明能夠提高網(wǎng)頁暗鏈檢測的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及網(wǎng)頁暗鏈檢測方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)。
背景技術(shù)
暗鏈,又稱“黑鏈”、“隱鏈”,是指看不見但可以被搜索引擎識別并計(jì)算權(quán)重的外鏈,入侵者通過非法技術(shù)在網(wǎng)頁中植入暗鏈,能夠達(dá)到提高暗鏈所指網(wǎng)站的搜索引擎排名并從中盈利的目的,暗鏈的植入不僅影響了網(wǎng)站的正常運(yùn)行,而且向公眾傳播了大量非法信息,危害巨大。目前網(wǎng)頁暗鏈檢測主要有以下兩種方法:
1)基于規(guī)則的暗鏈檢測:利用隱藏技術(shù)的識別并結(jié)合特征黑名單來判定網(wǎng)頁是否被植入暗鏈。這種方法對于暗鏈的某些隱藏方式識別較弱,同時(shí)也會由于黑名單關(guān)鍵字本身的限制而導(dǎo)致漏報(bào)、誤報(bào)。
2)基于二分類機(jī)器學(xué)習(xí)的暗鏈檢測:收集真實(shí)的網(wǎng)頁源碼數(shù)據(jù)形成包含暗鏈和不包含暗鏈的兩類數(shù)據(jù)的訓(xùn)練集,通過對檢測頁面的網(wǎng)頁源碼中的文本進(jìn)行特征選擇處理,然后結(jié)合訓(xùn)練集進(jìn)行二分判定。這種方法對樣本數(shù)據(jù)的分類過于粗糙,噪聲影響較大,容易出現(xiàn)誤報(bào)。例如,網(wǎng)絡(luò)中存在一類醫(yī)療類別的暗鏈植入,這些鏈接的錨文本大多數(shù)為“牛皮癬”等醫(yī)學(xué)術(shù)語,對于正例樣本,醫(yī)療類網(wǎng)站應(yīng)該會包含這類詞匯,而對于負(fù)例樣本,很多已探測的暗鏈也是醫(yī)療類別暗鏈植入,此時(shí)二分類的技術(shù)容易造成誤判。此外,這種方法忽略了暗鏈的隱藏特性,很容易將一些明鏈(如“友情鏈接”)判定為暗鏈,造成誤報(bào)。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提出一種網(wǎng)頁暗鏈檢測方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì),旨在提高網(wǎng)頁暗鏈檢測的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種網(wǎng)頁暗鏈檢測方法,所述方法包括如下步驟:
獲取預(yù)設(shè)網(wǎng)頁分類模型的訓(xùn)練集,所述訓(xùn)練集中的網(wǎng)頁根據(jù)所述網(wǎng)頁分類模型被劃分為表示不含有暗鏈的正例樣本和表示含有暗鏈的負(fù)例樣本,且所述正例樣本和所述負(fù)例樣本分別被劃分為若干網(wǎng)頁類型;
獲取待檢測網(wǎng)頁的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁的文本特征向量;
基于鄰近算法從所述訓(xùn)練集中選取若干個(gè)與所述待檢測網(wǎng)頁的文本特征向量符合預(yù)設(shè)相似條件的網(wǎng)頁的文本特征向量,作為所述待檢測網(wǎng)頁的文本特征向量的鄰近向量,并根據(jù)所述網(wǎng)頁分類模型確定所述鄰近向量對應(yīng)的網(wǎng)頁類型,作為所述待檢測網(wǎng)頁的候選網(wǎng)頁類型;
分別計(jì)算所述待檢測網(wǎng)頁屬于每個(gè)候選網(wǎng)頁類型的概率;
判斷概率最大值對應(yīng)的候選網(wǎng)頁類型屬于所述正例樣本還是所述負(fù)例樣本,若屬于所述負(fù)例樣本,則判定所述待檢測網(wǎng)頁中含有暗鏈。
優(yōu)選地,所述獲取待檢測網(wǎng)頁的文本特征向量和所述訓(xùn)練集中的網(wǎng)頁的文本特征向量的步驟包括:
獲取待檢測網(wǎng)頁的文本特征集和所述訓(xùn)練集中的網(wǎng)頁的文本特征集,其中,所述待檢測網(wǎng)頁的文本特征集和所述訓(xùn)練集中的網(wǎng)頁的文本特征集包含相同的關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞在所述待檢測網(wǎng)頁的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述待檢測網(wǎng)頁的文本特征向量;
根據(jù)所述關(guān)鍵詞在所述訓(xùn)練集中的網(wǎng)頁的文本特征集中的詞頻和權(quán)重進(jìn)行計(jì)算,得到所述訓(xùn)練集中的網(wǎng)頁的文本特征向量。
優(yōu)選地,所述獲取待檢測網(wǎng)頁的文本特征集和所述訓(xùn)練集中的網(wǎng)頁的文本特征集的步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深信服科技股份有限公司,未經(jīng)深信服科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710316339.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種基于地理位置的搜索方法
- 下一篇:一種管道走向圖物料清單的生成方法和裝置





