[發(fā)明專利]一種相似網(wǎng)頁的識別方法及裝置無效
| 申請?zhí)枺?/td> | 201010222214.5 | 申請日: | 2010-06-30 |
| 公開(公告)號: | CN102316081A | 公開(公告)日: | 2012-01-11 |
| 發(fā)明(設計)人: | 胡振宇;葉潤國;黃宇鴻 | 申請(專利權)人: | 北京啟明星辰信息技術股份有限公司;北京啟明星辰信息安全技術有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L12/26 |
| 代理公司: | 北京安信方達知識產(chǎn)權代理有限公司 11262 | 代理人: | 栗若木;王漪 |
| 地址: | 100193 北京市海淀區(qū)東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 網(wǎng)頁 識別 方法 裝置 | ||
1.一種相似網(wǎng)頁的識別裝置,其特征在于,包括:
接收模塊,用于分別接收兩個網(wǎng)頁的文檔對象模型DOM樹;
比較模塊,用于對所接收的兩個DOM樹進行比較,得到該兩個DOM樹的相似度;
判斷模塊,用于將所述相似度與一預設的閾值比較,如果大于或等于該閾值,判斷所述兩個網(wǎng)頁相似。
2.如權利要求1所述的裝置,其特征在于,所述比較模塊包括:
序列化單元,用于將所接收的所述兩個DOM樹分別轉(zhuǎn)化成第一、第二節(jié)點序列;
提取單元,用于根據(jù)所述第一、第二節(jié)點序列查找出兩個DOM樹中所有的最大同構的子樹對;所述同構的子樹對是指兩個子樹的樹型結構是同構的;所述最大同構的子樹對是指兩個子樹是同構的,但以各自的根節(jié)點的父節(jié)點為根節(jié)點的子樹卻不再同構;
度量單元,用于逐對計算所查找出的各所述最大同構的子樹對的相似度,再根據(jù)各所述最大同構的子樹對的相似度的和,計算出所述兩個DOM樹的相似度。
3.如權利要求2所述的裝置,其特征在于:
所述序列化單元將DOM樹轉(zhuǎn)化為節(jié)點序列時,記錄序列中每個節(jié)點的節(jié)點標記和節(jié)點深度;
所述提取單元包括;
子樹查找子單元,用于從所述第一節(jié)點序列中查找出深度最大的子樹,并記錄該子樹的根節(jié)點;當收到繼續(xù)查找的指示后,從所述第一節(jié)點序列中查找出深度最大、并且根節(jié)點沒有被記錄過的子樹,記錄該子樹的根節(jié)點,直到找不到新的子樹時結束工作;
同構樹查找子單元,用于判斷所述第二節(jié)點序列中是否存在與所查找的子樹同構的子樹;如果兩個子樹的節(jié)點數(shù)目相同,并且一個子樹的序列中的各節(jié)點的節(jié)點深度,分別減去另一個子樹的序列中相同位置節(jié)點的節(jié)點深度后所得的差均相同,則判斷兩個子樹同構;如果有則記錄該兩個子樹為最大同構的子樹對,輸出該最大同構的子樹對,并在所述第一、第二節(jié)點序列中將這兩個子樹的節(jié)點刪去或改為特定符號,然后指示所述子樹查找子單元繼續(xù)查找;如果沒有則指示所述子樹查找子單元繼續(xù)查找。
4.如權利要求2所述的裝置,其特征在于,所述度量單元計算所述最大同構的子樹對的相似度sim(T1,T2)是指:
所述度量單元計算子樹T1和T2中每一對對應節(jié)點的相似度,然后將所有對應節(jié)點的相似度相加,除以n得到sim(T1,T2);其中n表示子樹T1或T2的節(jié)點數(shù);子樹T1和T2中一對對應節(jié)點vi和ui的相似度為:
其中l(wèi)ength_of_matched_charater是匹配的字符長度,|vi|和ui|分別表示節(jié)點vi和ui的節(jié)點標記的字符長度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京啟明星辰信息技術股份有限公司;北京啟明星辰信息安全技術有限公司,未經(jīng)北京啟明星辰信息技術股份有限公司;北京啟明星辰信息安全技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010222214.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于光纖組件的插入件和使用該插入件的光纖組件
- 下一篇:大功率LED球泡燈





