[發明專利]基于超鏈接來源分析的網頁排名方法無效
| 申請號: | 201210428450.1 | 申請日: | 2012-11-01 |
| 公開(公告)號: | CN102915369A | 公開(公告)日: | 2013-02-06 |
| 發明(設計)人: | 楊博;李劍楠 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 超鏈接 來源 分析 網頁 排名 方法 | ||
技術領域
本發明屬于信息檢索領域,尤其涉及到基于超鏈接分析的網頁排名計算方法。
背景技術
互聯網飛速發展的同時,互聯網上的信息量也呈爆炸式增長。用戶要從海量的資源中尋找到對自己有幫助的信息,大都需要依靠搜索引擎的幫助。搜索引擎可以根據用戶的搜索需求,從互聯網中找到與需求相關的信息返回給用戶。通過對大量用戶行為的統計,在搜索引擎為用戶返回的結果中,用戶只對前幾頁的內容感興趣。因此,搜索引擎都具備一個網頁排名算法用于對將要返回給用戶的結果進行排序,之后再將排序后的結果返回給用戶。其目的是希望將最有價值的網頁排在最前面,使用戶只需瀏覽前幾頁的信息就能找到對自己有用的資源。排名算法性能的優劣將會直接影響搜索引擎的服務質量和用戶的搜索體驗。另一方面,搜索引擎正面臨著日益嚴重的網頁作弊問題——網站創建者利用現有排名算法的缺陷,通過欺騙手段達到虛假提高網站中網頁排名的目的。作弊網頁質量不高,甚至包含虛假信息,嚴重影響了搜索服務質量。隨著基于鏈接排名算法的廣泛應用,基于鏈接的作弊己成為網頁作弊的主要形式,如鏈接交換、構造鏈接農場和操縱子結點作弊等等。因此,排名算法和作弊檢測一直都是搜索引擎研究中的熱點問題。
由Brin和Page提出的PageRank算法以及Kleinberg提出的HITS算法是最著名的兩種基于鏈接結構的網頁排名算法。PageRank算法認為:一個網頁被高質量網頁指向的次數越多,該網頁的質量也就越高。其在現實中應用十分廣泛,受到了學者們的關注與研究。HITS算法認為每個網頁具備兩種屬性:權威性(authority)和中心性(hub)。權威性高的網頁包含了用戶需要的信息資源,而中心性高的頁面中包含了很多指向高權威性網頁的鏈接。之后,有很多學者對這兩種算法進行了改進。1998年,Chakrabarti?S提出的ARC(Automatic?Resource?Compilation)算法通過錨文本及錨文本的上下文中包含的查詢關鍵詞的數量為其對應的鏈接分配權值,解決了HITS算法容易出現的“主題漂移”問題。2000年,Lemple和Moran提出SALSA(Stochastic?Approach?for?Link-Structure?Analysis)算法,將隨機游走模型應用到了HITS算法中,同樣解決了“主題漂移”問題,并且減少了算法的運行時間。2000年,Bharat提出Hilltop算法,該算法不完全依賴PageRank得分去尋找權威頁面,這樣可以有效避免鏈接作弊帶來的影響,提高了主題相關性。2002年,來自斯坦福的Haveliwala對PageRank進行改進,提出TSPR(Topick-Sensitive?PageRank)算法。該算法基于ODP(Open?Directory?Project)中收錄的網頁,對每個目錄主題都求得一個PageRank得分向量,同樣增強了排名的主題相關性。
針對鏈接作弊檢測,研究者將信任傳播(trust?diffusion)引入到排名算法中。2004年,Gyangiy等人提出了TrustRank算法。算法認為:高質量的網頁很少指向不好的網頁。算法需要先挑選出一個頁面種子集作為可信網頁,為其分配初始信任值。信任值沿鏈接向下傳遞,最終根據網頁的信任值判斷網頁的可信程度。但算法結果易受種子集的影響。2006年,Wu等人運用類似Topick-Sensitive?PageRank的方法對TrustRank進行了改進,提出Topick?TrustRank算法。該算法仍舊依靠ODP的主題分類,針對每個主題中的種子集都對網絡進行一次TrustRank運算,這樣一個網頁就會有多個信任度得分,每個得分對應一種主題,最后綜合這些得分作為頁面信任度的最終得分。2006年,Krishnan提出了一種與TurstRank正好相反的算法Anti-TrustRank。該算法的傳播源是作弊頁面集合,其思想是:如果一個網頁信任了一個作弊網頁,那么這個網頁應該也是不值得信任的。與此類似的還有BadRank算法。考慮到信任度與非信任度都可以在網絡中傳播,Wu等人又提出一種結合兩者的算法,讓信任度與非信任度同時在網絡中傳播。網頁將會得到針對兩個屬性的得分,最終綜合這兩個得分作為判斷依據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210428450.1/2.html,轉載請聲明來源鉆瓜專利網。





