[發明專利]一種識別作弊網頁的方法及裝置有效
| 申請號: | 201610412719.5 | 申請日: | 2016-06-13 |
| 公開(公告)號: | CN107491453B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 李健;許靜芳 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 識別 作弊 網頁 方法 裝置 | ||
1.一種識別作弊網頁的方法,其特征在于,用于對網頁中的動態頁面內容進行作弊識別,包括:
獲取用于生成目標網頁的源文件數據;所述源文件數據,包括:直接存在于所述目標網頁的源文件的靜態頁面內容、解析所述目標網頁的源文件得到的解析數據,該解析數據用于通過頁面渲染生成動態頁面內容的網頁數據;
利用預先建立的作弊方式庫中的各個網頁作弊方式,對所述源文件數據進行作弊方式的匹配,所述網頁作弊方式是指在解析網頁源文件得到的網頁數據中嵌入作弊信息的方式;
如果從所述作弊方式庫中匹配出至少一種網頁作弊方式,則將所述目標網頁識別為作弊網頁;
所述作弊方式庫通過以下方式建立:
獲取測試樣本集中每一測試樣本網頁中的測試網頁內容,所述測試網頁內容是通過解析所述測試樣本網頁的源文件、且利用解析得到的測試網頁數據進行頁面渲染后生成的網頁內容;
根據所述測試網頁內容中的至少一個網頁特征判斷所述測試樣本網頁是否為作弊網頁;所述網頁特征至少包括關鍵詞、鏈接以及頁面布局;
如果所述測試樣本網頁被判斷為作弊網頁,則分析所述解析得到的測試網頁數據,確定所述測試樣本網頁用于實現網頁作弊的至少一種網頁作弊方式,保存在作弊方式庫中。
2.根據權利要求1所述的方法,其特征在于,所述根據所述測試網頁內容中的至少一個網頁特征判斷所述測試樣本網頁是否為作弊網頁,包括:
確定所述測試網頁內容中關于網頁特征集中各個網頁特征的測試特征向量,將確定的各個測試特征向量作為作弊分類器的輸入參數,以利用所述作弊分類器判斷所述測試樣本網頁是否為作弊網頁;
所述作弊分類器通過以下步驟獲得:
獲取訓練樣本集中每一訓練樣本網頁的完整網頁內容;所述訓練樣本集中的訓練樣本網頁包括已確定的作弊網頁和已確定的非作弊網頁;
確定每一訓練樣本網頁的完整網頁內容中關于所述網頁特征集中各個網頁特征的訓練特征向量;
利用所有訓練樣本網頁的所述訓練特征向量訓練得到一個用于識別作弊網頁的作弊分類器。
3.根據權利要求2所述的方法,其特征在于,所述網頁特征集中包括以下一個或多個網頁特征:
網頁中嵌入了用于網頁作弊的框架Iframe;
網頁具有重定向一個作弊網頁的功能;
網頁動態頁面中包含了與網頁靜態頁面無關的內容,所述網頁動態頁面是通過解析網頁源文件、且利用解析得到的網頁數據進行頁面渲染后生成的,所述網頁靜態頁面是利用網頁源文件中存在的網頁內容直接生成的;
網頁中包含有非法內容和/或違禁內容。
4.根據權利要求3所述的方法,其特征在于,所述網頁中嵌入了用于網頁作弊的框架Iframe,包括:
網頁中嵌入的Iframe遮擋了網頁的部分或全部內容,和/或,所述Iframe中嵌入的網頁為作弊網頁。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述將所述目標網頁識別為作弊網頁之后,還包括:
確定所述目標網頁的網頁作弊程度;
根據所述網頁作弊程度,刪除所述目標網頁或降低所述目標網頁在搜索引擎中的網頁評分。
6.根據權利要求4所述的方法,其特征在于,所述確定所述目標網頁的網頁作弊程度,包括:
根據所述目標網頁中的作弊信息量、和/或所述目標網頁中的作弊信息在所述目標網頁中的分布位置,確定所述目標網頁的網頁作弊程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610412719.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:能快速且精準搜尋旅游景點的方法
- 下一篇:數據查詢方法及裝置





