[發明專利]基于詞性分類統計的重復網頁和近似網頁的識別方法無效
| 申請號: | 201210151552.3 | 申請日: | 2012-05-16 |
| 公開(公告)號: | CN102722526A | 公開(公告)日: | 2012-10-10 |
| 發明(設計)人: | 安俊秀;程芃森;王鵬 | 申請(專利權)人: | 成都信息工程學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京中海智圣知識產權代理有限公司 11282 | 代理人: | 巢瑞鈺 |
| 地址: | 610000 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 詞性 分類 統計 重復 網頁 近似 識別 方法 | ||
技術領域
本發明涉及一種重復網頁和近似網頁的識別方法,尤其涉及一種基于詞性分類統計的重復網頁和近似網頁的識別方法。
背景技術
隨著互聯網的深入發展,網頁的數量顯著增加,搜索引擎也越來越重要。在對網頁的搜索、分類、分析過程中,對重復網頁和近似網頁的識別也顯得越來越重要。對重復網頁和近似網頁的識別,能夠為互聯網信息有序化過程中的信息去重和整合提供必要依據,提高搜索引擎的檢全率和檢準率,提升搜索結果中有效信息含量,提升用戶體驗。
目前,重復網頁和近似網頁的識別方法有很多,舉例如下:
1、以句法為基準的聚類算法即DSC算法:在DSC算法中,文檔由若干個shingle(shingle表示若干詞組成的一個詞段)組成,通過比較文本中含有相同shingle的個數判定網頁是否重復。與全文比較而言,此算法降低了比較次數,但是效率依然較低,因此該方法創始人又提出了一個改進的算法:DSC-SS算法。DSC-SS算法為了提高效率,將若干個shingle合并成一個大的shingle,并且把這些大的shingle轉換為一個散列值。但是,DSC-SS的效率對當前大規模網頁而言依然較低。
2、在SCAM(Stanford?Copy?Analysis?Mechanism,斯坦福副本分析機制)系統近似鏡像檢測算法的基礎上提出了后來用于Google系統的分塊簽名算法:該算法將文本以詞、詞序列、句子、段落或者全文為單位分塊,把每一個塊作為單獨的輸入對應地生成一個32比特位的散列值,一篇文檔就由若干個32位的散列值表示。本算法的優點在于分塊靈活,查詢速度快,缺點是需要頻繁的更新索引。
3、針對中文網頁的大規模網頁去重算法:在此算法中,提取以句號為中心的前5個漢字和后5個漢字組成特征碼,并且通過B-Tree(多路搜索樹)來索引所用的特征碼,減少比較次數,加快對比效率。該算法效率極高,但是網頁頁面結構布局的繁復導致該算法無法推廣。
4、I-Match算法:對shingle采取了過濾,并且把shingle作為輸入生成一個MD5(MD表示信息摘要算法)值。shingle在全部文檔頻率中具有不確定性,導致簽名結果不穩定。
5、基于特征串的大規模網頁去重算法:本算法在網頁內容上引入了網頁文本的結構信息。但是,文本段落順序的差異或段落的丟失對算法的結果影響較大。
6、基于網頁文本結構的網頁去重算法:通過網頁結構生成目錄結構樹。本算法在鏡像網頁識別的正確率和召回率極高,但是算法復雜,效率較低,需要較大的空間維護所有的目錄結構樹。
7、基于正文結構和長句提取的網頁去重算法:本算法動態地、分層地對正文進行特征抽取和層次指紋計算,保證了去重算法的效率;通過長句提取算法得到節點指紋,保證了算法的魯棒性。但是,該算法復雜,開銷大,需要為每一篇網頁維護一棵樹,對內存資源消耗大。
8、將布隆過濾器算法引入到網頁消重技術中,提出了基于布隆過濾器算法的網頁消重技術,此方法時空效率高,但是不足在于,并未能把元素間的全排列順序考慮在內,最后生成的二進制數組里內容的順序不確定。
9、合并特征碼、特征句和K-CC(一種改進的基于關鍵詞和特征碼的網頁去重算法)算法的基于關鍵詞和特征碼的頁面去重算法,此算法復雜度較高,關鍵詞選取采用了貝葉斯模型,需要不斷的升級訓練樣本。
10、基于概念和語義網絡的近似網頁檢測算法:本算法具有良好的時空復雜度,且不依賴于語料庫。但是,此算法在短小網頁的處理中由于關鍵概念識別困難,而導致算法識別率降低。
綜上,過去傳統的經典算法較為簡單、實用性強,但是互聯網發展迅速,目前網頁結構布局復雜,噪聲量增多,導致算法失效;而當前現用的算法,能夠應對當前網頁結構布局的繁復,降低了噪聲的影響,但是算法較為復雜,實用性較低。
發明內容
本發明的目的就在于為了解決上述問題而提供一種算法步驟簡單、實用性強的基于詞性分類統計的重復網頁和近似網頁的識別方法。
為了達到上述目的,本發明采用了以下技術方案:
本發明包括以下步驟:
(1)從網頁文本中提取正文;
(2)對正文進行切詞操作;
(3)將切詞得到的詞語以詞性進行分類;
(4)分別對每一類詞語進行詞頻統計;
(5)分別提取每一類詞語中詞頻最高的詞語;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程學院,未經成都信息工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210151552.3/2.html,轉載請聲明來源鉆瓜專利網。





