[發(fā)明專利]重復(fù)網(wǎng)頁識別方法和裝置有效
| 申請?zhí)枺?/td> | 201410324553.2 | 申請日: | 2014-07-08 |
| 公開(公告)號: | CN104063506B | 公開(公告)日: | 2017-04-12 |
| 發(fā)明(設(shè)計)人: | 李羽;顏俊偉;李浩 | 申請(專利權(quán))人: | 百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 鄧猛烈,胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 重復(fù) 網(wǎng)頁 識別 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明實施例涉及網(wǎng)絡(luò)數(shù)據(jù)通信技術(shù)領(lǐng)域,尤其涉及一種重復(fù)網(wǎng)頁識別方法和裝置。
背景技術(shù)
在互聯(lián)網(wǎng)為廣大民眾普遍使用的今天,新的網(wǎng)站、網(wǎng)頁層出不窮。在眾多的網(wǎng)頁中,有相當(dāng)一部分是重復(fù)網(wǎng)頁。重復(fù)網(wǎng)頁是指實質(zhì)內(nèi)容相同的網(wǎng)頁,例如,顯示內(nèi)容完全相同的網(wǎng)頁;正文內(nèi)容相同,但標(biāo)題不同的網(wǎng)頁;正文內(nèi)容相同,但輔助內(nèi)容不同的網(wǎng)頁等。有研究顯示,重復(fù)網(wǎng)頁占據(jù)當(dāng)今互聯(lián)網(wǎng)上網(wǎng)頁總數(shù)的70%。有數(shù)量如此之大的重復(fù)性的數(shù)據(jù),對于任何一個搜索引擎來說,都不得不說是相當(dāng)大的處理障礙。
現(xiàn)有的重復(fù)網(wǎng)頁識別方案都是對互聯(lián)網(wǎng)上的網(wǎng)頁獨立的進行重復(fù)網(wǎng)頁識別,并沒有利用網(wǎng)頁之間的相互關(guān)系進行識別。因此,造成了重復(fù)網(wǎng)頁的識別效率低下。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提出一種重復(fù)網(wǎng)頁識別方法和裝置,以提高重復(fù)網(wǎng)頁的識別效率。
第一方面,本發(fā)明實施例提供了一種重復(fù)網(wǎng)頁識別方法,所述方法包括:
從互聯(lián)網(wǎng)網(wǎng)頁中識別至少一組原始重復(fù)網(wǎng)頁,并將所述至少一組原始重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合;
依據(jù)互聯(lián)網(wǎng)網(wǎng)頁的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁有鏈接關(guān)系的網(wǎng)頁中迭代的識別候選重復(fù)網(wǎng)頁,并將所述候選重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合。
第二方面,本發(fā)明實施例提供了一種重復(fù)網(wǎng)頁識別裝置,所述裝置包括:
原始重復(fù)網(wǎng)頁識別模塊,用于從互聯(lián)網(wǎng)網(wǎng)頁中識別至少一組原始重復(fù)網(wǎng)頁,并將所述至少一組原始重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合;
候選重復(fù)網(wǎng)頁識別模塊,用于依據(jù)互聯(lián)網(wǎng)網(wǎng)頁的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁有鏈接關(guān)系的網(wǎng)頁中迭代的識別候選重復(fù)網(wǎng)頁,并將所述候選重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合。
本發(fā)明實施例提供的重復(fù)網(wǎng)頁識別方法和裝置,通過從互聯(lián)網(wǎng)網(wǎng)頁中識別至少一組原始重復(fù)網(wǎng)頁,并將所述至少一組原始重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合,依據(jù)互聯(lián)網(wǎng)網(wǎng)頁的鏈接關(guān)系,從與所述至少一組原始重復(fù)網(wǎng)頁有鏈接關(guān)系的網(wǎng)頁中迭代的識別候選重復(fù)網(wǎng)頁,并將所述候選重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合,從而利用網(wǎng)頁之間的相互鏈接關(guān)系搜索重復(fù)網(wǎng)頁,提高了重復(fù)網(wǎng)頁的識別效率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本發(fā)明第一實施例提供的重復(fù)網(wǎng)頁識別方法的流程圖;
圖2是本發(fā)明第二實施例提供的重復(fù)網(wǎng)頁識別方法中原始重復(fù)網(wǎng)頁識別的流程圖;
圖3是本發(fā)明第三實施例提供的重復(fù)網(wǎng)頁識別方法中候選重復(fù)網(wǎng)頁識別的流程圖;
圖4是本發(fā)明第四實施例提供的重復(fù)網(wǎng)頁識別方法的流程圖;
圖5是本發(fā)明第四實施例提供的重復(fù)網(wǎng)頁識別方法的流程示意圖;
圖6是本發(fā)明第五實施例提供的重復(fù)網(wǎng)頁識別方法中重復(fù)網(wǎng)頁驗證的流程圖;
圖7是本發(fā)明第六實施例提供的重復(fù)網(wǎng)頁識別裝置的結(jié)構(gòu)圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
圖1示出了本發(fā)明的第一實施例。
圖1是本發(fā)明第一實施例提供的重復(fù)網(wǎng)頁識別方法的流程圖。所述重復(fù)網(wǎng)頁識別方法由重復(fù)網(wǎng)頁識別裝置執(zhí)行,并且,所述重復(fù)網(wǎng)頁識別裝置集成在用于識別重復(fù)網(wǎng)頁的服務(wù)器中。
參見圖1,所述重復(fù)網(wǎng)頁識別方法包括:
S110,從互聯(lián)網(wǎng)網(wǎng)頁中識別至少一組原始重復(fù)網(wǎng)頁,并將所述至少一組原始重復(fù)網(wǎng)頁存儲至重復(fù)網(wǎng)頁集合。
在互聯(lián)網(wǎng)大為流行的今天,互聯(lián)網(wǎng)上有數(shù)量規(guī)模巨大的網(wǎng)頁。在這些不同的網(wǎng)頁中,重復(fù)網(wǎng)頁占據(jù)了其中相當(dāng)?shù)谋戎亍K^重復(fù)網(wǎng)頁,就是指網(wǎng)頁的內(nèi)容代碼完全相同,或者差異非常小的網(wǎng)頁。由于重復(fù)網(wǎng)頁的存在,搜索引擎在進行網(wǎng)頁內(nèi)容抓取的過程中就需要對重復(fù)的網(wǎng)頁進行剔除,以便提供給用戶唯一的網(wǎng)頁信息。
通常情況下,在兩個重復(fù)網(wǎng)頁的相同位置的鏈接所指向的網(wǎng)頁也是重復(fù)網(wǎng)頁。本實施例通過網(wǎng)頁之間的這種鏈接關(guān)系,迭代的識別互聯(lián)網(wǎng)上的重復(fù)網(wǎng)頁,從而提高重復(fù)網(wǎng)頁識別的效率。
由于是根據(jù)網(wǎng)頁之間的鏈接關(guān)系迭代的識別重復(fù)網(wǎng)頁,所以首先需要從互聯(lián)網(wǎng)網(wǎng)頁中識別出至少一組原始重復(fù)網(wǎng)頁,以作為后續(xù)進行迭代的基礎(chǔ)。每組原始重復(fù)網(wǎng)頁包括至少兩個代碼相同或者差異很小的重復(fù)網(wǎng)頁。優(yōu)選的,可以通過相同反向鏈接數(shù)量以及錨文本相似度識別出一組原始重復(fù)網(wǎng)頁。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司,未經(jīng)百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410324553.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





