[發明專利]一種冗余頁面的發現方法有效
| 申請號: | 201710854632.8 | 申請日: | 2017-09-20 |
| 公開(公告)號: | CN107729395B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 陳剛;范淵;黃進 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/957 | 分類號: | G06F16/957 |
| 代理公司: | 杭州中成專利事務所有限公司 33212 | 代理人: | 周世駿 |
| 地址: | 310051 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 冗余 頁面 發現 方法 | ||
1.一種冗余頁面的發現方法,用于判斷網站的目標頁面是否為冗余頁面,其特征在于,所述冗余頁面的發現方法包括探測頁面收集階段、探測頁面處理階段、目標頁面處理階段、目標頁面識別階段;
所述探測頁面收集階段,用于收集網站冗余頁面:通過對站點發送不同頁面類型的確定不存在的頁面,收集網站對不同類型不存在頁面的處理回應,以及對該不存在頁面返回的HTTP返回碼;
所述探測頁面處理階段,用于對探測頁面收集階段返回的結果做處理:將探測頁面收集階段收集的網站冗余頁面進行降維處理,求得特征值,并記錄下HTTP返回碼;所述特征值通過下述任意一種計算方式獲得:1)通過simhash計算頁面的特征值;2)通過詞頻來算特征值;3)對頁面做降維處理形成特征值;4)通過局部敏感hash求得特征值;
所述目標頁面處理階段,對目標頁面做特征提取處理,求得特征值,將目標頁面的HTTP返回碼與目標頁面計算所得的特征值保存下來;
所述目標頁面識別階段,用于將目標頁面與和其頁面類型相同的網站冗余頁面做識別對比:先比較目標頁面和該網站冗余頁面的HTTP返回碼是否一致,若HTTP返回碼一致,則將目標頁面的特征值與該網站冗余頁面的特征值做相似度匹配,若相似,則判斷該目標頁面為冗余頁面;
其中,頁面間特征值的相似度,是指兩個特征值的余弦距離、歐氏距離或者杰卡德相似性度量。
2.根據權利要求1所述的一種冗余頁面的發現方法,其特征在于,所述探測頁面收集階段采用HTTP發送庫實現,且不限該HTTP發送庫的實現語言。
3.根據權利要求1所述的一種冗余頁面的發現方法,其特征在于,所述頁面類型,是用http頭部中的content-type來區分的頁面類型、用URL的文件后綴名來區分的頁面類型或者用返回數據的文件頭來區分的頁面類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710854632.8/1.html,轉載請聲明來源鉆瓜專利網。





