[發明專利]一種確定網站權重的方法及裝置有效
| 申請號: | 201210089527.7 | 申請日: | 2012-03-29 |
| 公開(公告)號: | CN102663054A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 李鐵鈞;張紹瑞 | 申請(專利權)人: | 奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市德權律師事務所 11302 | 代理人: | 劉麗君 |
| 地址: | 100016 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 網站 權重 方法 裝置 | ||
技術領域
本發明涉及搜索引擎技術領域,特別是涉及一種確定網站權重的方法及裝置。
背景技術
隨著計算機的普及和互聯網的發展,人們對網絡的使用越來越頻繁,計算機網絡逐漸成為人們日常生活中必不可少的工具,而搜索引擎因其本身能夠提供的各種豐富的信息服務,給用戶提供了方方面面的信息和數據,在人們的日常生活中得到了廣泛的應用,給人們日常的生產生活帶來了巨大的便利。
搜索引擎網站是互聯網上專門提供檢索服務的一類網站,用戶通過在搜索引擎提供的接口中輸入搜索詞(query),獲取搜索引擎針對該搜索詞返回的搜索結果。作為搜索引擎運行的關鍵一環,將互聯網上不斷出現的新的頁面和信息收集起來,是搜索引擎網站提供服務的基礎。搜索引擎服務器需要不斷更新自己的網址庫,下載網址庫中的網址對應的網頁,再將這些網頁的內容信息進行加工和整合,建立信息數據庫和索引數據庫,以便為用戶提供信息檢索和查詢服務。
然而,在如今互聯網上的網頁數量極其龐大,而且增長速度又非常快的情況下,要想在短時間內對每一個抓取到的網頁都進行下載分析,幾乎是一個不可能完成的任務,這是因為,互聯網上網頁的數量極其龐大,搜索引擎的爬蟲程序在互聯網上抓取到的URL對應的頁面也只是其中的一部分,然而即使是這部分頁面,要想全部下載到搜索引擎服務器中,需要占用大量的資源,因此,通常采取一種由搜索引擎給網址庫中的網址設置優先級,生成并維護下載隊列,根據待下載網頁的優先級高低來順序對網頁進行下載調度。其中,網頁的下載優先級主要是根據網頁所在網站的權威性因素來設定的,因此,如何準確獲取到網站的權威性評價是比較關鍵的一環。
現有技術在確定一個網站的權威性時,主要考慮網站包含的網頁數量、網站內各網頁的更新頻率、網站外鏈(所謂外鏈是指,在博客、論壇等其他外部網站發布的關于某網站的鏈接,通過外鏈,可以從別的網站導入到自己的網站)的數量、外鏈源網站的重要程度等。但是,搜索引擎在采集以上這些參數時,會依賴于已爬取的網頁數據,或者用戶對搜索結果的點擊情況,但是這會因為爬取方式的不同,而造成不同程度的偏差。例如,網站包含的網頁數量比較依賴于搜索引擎對該網站下的網頁的爬取情況,如果一個網站內包含的網頁數量比較大,但是搜索引擎僅爬取到了其中的一小部分,則搜索引擎所獲知的這個網站包含的網頁數量,實際上是小于該網站實際包含的網頁數量的;網頁的更新頻率比較依賴搜索引擎對該網站的爬取頻度,如果某網頁的更新頻率非常高,但是搜索引擎對該網站的爬取頻度較低,則搜索引擎采集到的該網頁的更新頻率會小于該網頁的實際更新頻率;網站的外鏈數量則更多的依賴于對互聯網上海量網頁的鏈接分析,如果分析地不夠全面,仍然會導致數據的偏差。此外,網站的開發和維護人員也往往會采用一些手段,來影響以上這些數據的真實性,從而使得網站獲取更高的權重評價。總之,由于以上諸多因素的影響,使得現有技術中的搜索引擎存在采集數據不準確、數據更新不及時等缺陷,進而導致最終給出的搜索結果的質量比較低。
發明內容
本發明提供了一種確定網站權重的方法及裝置,能夠提高搜索引擎采集數據的準確度及更新的及時性。
本發明提供了如下方案:
一種確定網站權重的方法,包括:
瀏覽器端將用戶的訪問網頁相關信息上報給搜索引擎服務器;所述訪問網頁相關信息包括:被訪問網頁的唯一性標識信息、以及當用戶訪問鏈接對應的目標網頁時,所述鏈接所在的源網頁的唯一性標識信息;
所述搜索引擎服務器根據從多個瀏覽器端收集到的所述訪問網頁相關信息,統計網站的權威性信息,所述網站的權威性信息包括網站包含的網頁數量、及網站外鏈的數量;以便所述搜索引擎服務器根據所述網站的權威性信息確定網站的權重。
其中,還包括:
統計同一網站下各個網頁的訪問量,根據同一網站下各個網頁的訪問量調整該網站的權重。
其中,所述根據同一網站下各個網頁的訪問量調整網站的權重包括:
根據同一網站下訪問量超過第一預置閾值的網頁的數量,對該網站進行加權;
或者,
根據同一網站的總訪問量,對該網站進行加權。
其中,所述瀏覽器端上報的訪問網頁相關信息還包括訪問網頁的用戶信息,所述方法還包括:
統計同一網站下各個網頁的訪問用戶量,根據同一網站下各個網頁的訪問用戶量調整該網站的權重。
其中,所述根據同一網站下各個網頁的訪問用戶量調整該網站的權重包括:
根據同一網站下訪問用戶量超過第二預置閾值的網頁的數量,對該網站進行加權;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇智軟件(北京)有限公司,未經奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210089527.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據搜索系統及方法
- 下一篇:由含碳材料生產合成烴的方法





