[發明專利]基于內容引用的網頁搜索結果排序方法無效

申請號：	200910081203.7	申請日：	2009-03-30
公開（公告）號：	CN101526956A	公開（公告）日：	2009-09-09
發明（設計）人：	高嵩;周強	申請（專利權）人：	清華大學
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/20
代理公司：	北京眾合誠成知識產權代理有限公司	代理人：	朱琨
地址：	100084北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于內容引用網頁搜索結果排序方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于自然語言處理技術領域

背景技術

隨著Internet規模的迅速膨脹，如何從Internet上獲取用戶需要的信息成為一個重要的研究課題，于是搜索引擎技術應運而生。它根據用戶的查詢返回一系列可能與用戶的查詢相關的網頁，并按照某種算法對這些網頁進行排序最后呈現在用戶面前。評價一個搜索引擎的性能主要有以下這些指標：準確率、查全率、第一頁(或前N個結果)的準確率。由于Internet上面的信息量極其龐大，而且用戶關心的是迅速準確的找到自己需要的信息，所以真正用戶最直接體驗的指標是第一頁(或前N個結果)的準確率。一個好的搜索引擎必須有一個好的搜索結果排序算法，將質量最好的網頁放在第一頁呈現給用戶。現在最廣泛應用的搜索結果排序算法是PageRank算法和HITS算法。PageRank算法與HITS算法均是基于鏈接分析的搜索引擎排序算法，并且在算法中二者均利用了特征向量作為理論基礎。他們都有一個局限性：即認為網頁之間的全部聯系就是超鏈接。所有的計算也都是基于網頁之間的超鏈接進行。而現實中很可能網頁中不包括顯式的超鏈接，有可能以文字表明文章來源，也可能直接引用其它文章的文字而不加說明，或者雖然文字不是完全一致但是明顯借鑒了另外一篇文章等等，按照PageRank的思想這些行為實際上都應當提高引用源頁面的排序分值，但由于沒有超鏈接存在，所以現有的PageRank算法并不能體現這些關系。這便造成了PageRank算法結果與實際情況的偏差。

根據統計在中文網頁中大量存在不加任何說明注釋的直接引用，更沒有超鏈接指向引用源，這造成了很多網頁現有的排序值很低，背離了該網頁的真實重要程度，影響了網頁排序算法的效果。如何在網頁超鏈接相對比較缺乏時，挖掘并利用這種超鏈接之外的網頁之間的相互關系成為一個有著重要現實意義的課題。而基于文本內容的網頁排序算法則很接近人的直觀認識，它不區分不同網頁上的相同文字，排序的對象不是一個用URL標示的網頁而是網頁中的文章內容。本發明正是基于這種思想提出了一種基于文本引用關系的網頁排序算法。算法認為被引用次數越多的文本段落可能越重要，從而應當獲得更好的排名。當一個網頁中的內容被很多網頁引用時，我們認為有很多人同意該網頁的觀點，于是給該網頁一個較高的評分。另外如果一個網頁引用了許多其他網頁的內容，我們認為他包含了很大的信息量，是一種總結性綜述性的文章，同樣也給其一個較高的評分。它從一個與當前流行的基于超鏈接分析的網頁排序算法完全不同的側面著眼，能夠挖掘出大量無法體現在超鏈接中的文本信息，以接近人類思考的方式進行網頁排名。當用戶需要查詢包含大量信息的網頁時，如查詢某詞的定義、百科知識等，這種算法比起傳統的基于超鏈接分析的算法有著較明顯的優勢。

術語定義

查詢詞：用戶提交的用于查詢的詞。系統返回一系列與查詢詞相關的網頁，按照重要程度從高至低進行排序。

待處理網頁：使用搜索引擎獲取的與查詢詞相關的一系列網頁。整個算法的排序對象就是這些網頁。

文本塊：網頁中長度約為10個漢字的純文本片斷。

引用/引用塊：當一個文本塊同時在兩個以上的網頁上出現時，稱之為引用。該文本塊稱之為引用塊。

有效引用/有效引用塊：為區別于無效引用塊，我們將包含一定相關信息量，確實能夠反映文檔重要程度的引用塊稱為有效引用塊，該引用稱為有效引用。

無效引用塊列表：事先生成的一些無效引用塊的列表。在后面的計算中凡是在該列表中的引用全部不計算。

哈希表：按照(關鍵字，值)對進行存儲的數據結構。對給定關鍵字可以迅速查找到其相對應的值(無論表的規模如何，均可在固定時間內找到對應的值)。

塊索引表：針對所有待處理網頁中的文本塊，建立一個對(文本塊，包含該文本塊的網頁編號列表)，使用哈希表進行存儲，稱為塊索引表。

大規模互聯網語料庫：從Internet上抓取的包含極大數量網頁的語料庫。

發明內容

本發明的目的在于提出一種基于內容引用的網頁搜索結果排序方法，把包含用戶所希望的內容的網頁排在前面。