[發明專利]一種用于獲取頁面相似度的方法與設備有效
| 申請號: | 201210089360.4 | 申請日: | 2012-03-29 |
| 公開(公告)號: | CN103365879B | 公開(公告)日: | 2018-05-01 |
| 發明(設計)人: | 胡蓉;趙楓;孫立波 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙)11370 | 代理人: | 羅朋 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 獲取 頁面 相似 方法 設備 | ||
技術領域
本發明涉及計算機技術領域,尤其涉及一種獲取頁面相似度的技術。
背景技術
在現有技術中一般基于網頁關鍵詞對網頁進行相似度判定,例如可通過對網頁進行解析以提取網頁關鍵詞,隨后查詢包含全部或大部分該網頁關鍵詞的其他網頁,接著計算該兩個網頁的關鍵詞重疊度以確定其頁面相似度。現有技術的缺陷在于由于沒有考慮到不同頁面塊在整個頁面中的不同權重,當相互比較的兩個頁面中一個頁面包含例如留言塊時,該兩個頁面的關鍵詞重疊度可能不高,但該兩個頁面的其他頁面塊的內容可能相似,因此會造成較高的誤判率,從而導致對頁面相似度的判斷準確性較低,進一步會降低過濾重復網頁的準確性。
因此,如何實現有效地獲取頁面相似度,成為目前亟待解決的問題之一。
發明內容
本發明的目的是提供一種用于獲取頁面相似度的方法與設備。
根據本發明的一個方面,提供了一種計算機實現的用于獲取頁面相似度的方法,該方法包括以下步驟:
a確定一個頁面中的一個或多個頁面塊與另一頁面中的一個或多個頁面塊之間的塊相似度;
b根據兩個頁面中各個頁面塊的權重及所述塊相似度,加權確定所述兩個頁面的頁面相似度。
根據本發明的另一方面,還提供了一種用于獲取頁面相似度的設備,該設備包括:
第一相似度確定裝置,用于確定一個頁面中的一個或多個頁面塊與另一頁面中的一個或多個頁面塊之間的塊相似度;
第二相似度確定裝置,用于根據兩個頁面中各個頁面塊的權重及所述塊相似度,加權確定所述兩個頁面的頁面相似度。
與現有技術相比,本發明中首先確定一個頁面中的一個或多個頁面塊與另一頁面中的一個或多個頁面塊之間的塊相似度,接著根據兩個頁面中各個頁面塊的權重及其塊相似度,加權確定該兩個頁面的頁面相似度,從而將頁面塊的權重引入頁面相似度判定標準中,通過對不同頁面塊的準確賦權,體現出不同頁面塊的價值差異,從而獲得更為準確的頁面相似度判定結果,進一步為保證較高的過濾重復網頁準確性提供了保證。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1示出根據本發明一個方面的用于獲取頁面相似度的設備示意圖;
圖2示出根據本發明一個優選實施例的用于獲取頁面相似度的設備示意圖;
圖3示出根據本發明另一優選實施例的用于獲取頁面相似度的設備示意圖;
圖4示出根據本發明又一優選實施例的用于獲取頁面相似度的設備示意圖;
圖5示出根據本發明另一個方面的用于獲取頁面相似度的方法流程圖;
圖6示出根據本發明一個優選實施例的用于獲取頁面相似度的方法流程圖;
圖7示出根據本發明另一優選實施例的用于獲取頁面相似度的方法流程圖;
圖8示出根據本發明又一優選實施例的用于獲取頁面相似度的方法流程圖;
圖9示出根據本發明一個方面的用于獲取頁面相似度的示例圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本發明作進一步詳細描述。
圖1示出根據本發明一個方面的用于獲取頁面相似度的設備示意圖。其中,獲取設備1包括第一相似度確定裝置111和第二相似度確定裝置112。
在此,獲取設備1是網絡設備,其中,所述網絡設備包括但不限于計算機、網絡主機、單個網絡服務器、多個網絡服務器集或多個服務器構成的云,在此,云由基于云計算(Cloud Computing)的大量計算機或網絡服務器構成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。
以下參照圖1來對獲取設備1獲取頁面相似度的過程進行詳細描述:
具體地,第一相似度確定裝置111確定一個頁面中的一個或多個頁面塊與另一頁面中的一個或多個頁面塊之間的塊相似度。
在此,所述頁面塊意指頁面中顯示的特定內容塊,其包括但不限于以下至少任一項:
1)標題塊;
2)正文塊;
3)圖片塊;其包括圖片標題、圖片摘要等信息。
4)超文本鏈接塊;
5)廣告塊。
本領域技術人員應能理解上述頁面塊僅為舉例,其他現有的或今后可能出現的頁面塊如可適用于本發明,也應包含在本發明保護范圍以內,并以引用方式包含于此。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210089360.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:處理數據的方法和裝置
- 下一篇:用于LED照明燈的膠帶





