[發明專利]一種網頁相似度計算方法及裝置有效
| 申請號: | 201410348586.0 | 申請日: | 2014-07-22 |
| 公開(公告)號: | CN104133870B | 公開(公告)日: | 2017-06-09 |
| 發明(設計)人: | 魏玉良;呂芳;鄒新一;王佰玲;黃俊恒;劉揚 | 申請(專利權)人: | 哈爾濱工業大學(威海) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君恒知識產權代理事務所(普通合伙)11466 | 代理人: | 林潮,黃啟行 |
| 地址: | 264209*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 相似 計算方法 裝置 | ||
1.一種網頁相似度計算方法,其特征在于,包括:
生成待測網頁對應的基于視覺結構的第一分塊特征向量,其中所述第一分塊特征向量包括第一分塊位置特征向量和第一分塊內容特征向量;
將所述第一分塊特征向量和預設網頁對應的基于視覺結構的第二分塊特征向量進行比對,獲得待測網頁的相似度;
其中,獲得待測網頁的相似度的步驟包括:
獲得待測網頁的分塊數N和預設網頁的分塊數Na;
通過所述第一分塊特征向量和所述第二分塊特征向量匹配的數目獲得所述待測網頁和所述預設網頁匹配的分塊數na;
計算待測網頁的相似度,其中所述待測網頁的相似度由公式(1)獲得;
S=(na/Na)*(max(N,Na)/min(N,Na))公式(1);
其中,S為所述待測網頁的相似度;max(N,Na)為N和Na中較大者;min(N,Na)為N和Na中較小者。
2.根據權利要求1所述的方法,其特征在于,所述生成待測網頁對應的基于視覺結構的第一分塊特征向量,包括:
獲得所述待測網頁對應的DOM樹;
根據所述DOM樹獲得VTree;
根據預設的篩選條件篩選VTree,獲得第一分塊位置特征向量;
根據應用環境獲得第一分塊內容特征向量,由所述第一分塊位置特征向量和所述第一分塊內容特征向量獲得第一分塊特征向量。
3.根據權利要求1所述的方法,其特征在于,所述將所述第一分塊特征向量和預設網頁對應的基于視覺結構的第二分塊特征向量進行比對之前,還包括:
獲得所述預設網頁對應的DOM樹;
根據所述DOM樹獲得VTree;
根據預設的篩選條件篩選VTree,獲得第二分塊位置特征向量;
根據應用環境獲得第二分塊內容特征向量,由所述第二分塊位置特征向量和所述第二分塊內容特征向量獲得第二分塊特征向量。
4.根據權利要求3所述的方法,其特征在于,所述由所述第二分塊位置特征向量和所述第二分塊內容特征向量獲得第二分塊特征向量之后,還包括:
對所述第二分塊特征向量建立索引;
根據所述索引建立特征向量索引庫;
相應地,所述將所述第一分塊特征向量和預設網頁對應的基于視覺結構的第二分塊特征向量進行比對,獲得待測網頁的相似度包括:
將所述第一分塊特征向量和所述特征向量索引庫中的第二分塊特征向量通過查找索引進行比對,獲得待測網頁的相似度。
5.一種網頁相似度計算裝置,其特征在于,包括:
第一生成單元,用于生成待測網頁對應的基于視覺結構的第一分塊特征向量,其中所述第一分塊特征向量包括第一分塊位置特征向量和第一分塊內容特征向量;
比對單元,用于將所述第一分塊特征向量和預設網頁對應的基于視覺結構的第二分塊特征向量進行比對,獲得待測網頁的相似度;
其中,所述比對單元用于獲得待測網頁的相似度,具體包括:
分塊數獲得子單元,用于獲得待測網頁的分塊數N和預設網頁的分塊數Na;
匹配子單元,用于通過所述第一分塊特征向量和所述第二分塊特征向量匹配的數目獲得所述待測網頁和所述預設網頁匹配的分塊數na;
計算子單元,用于計算待測網頁的相似度,其中所述待測網頁的相似度由公式(2)獲得;
S=(na/Na)*(max(N,Na)/min(N,Na))公式(2);
其中,S為所述待測網頁的相似度;max(N,Na)為N和Na中較大者;min(N,Na)為N和Na中較小者。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(威海),未經哈爾濱工業大學(威海)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410348586.0/1.html,轉載請聲明來源鉆瓜專利網。





