[發明專利]一種抓取網頁的方法和裝置有效
| 申請號: | 201310154941.6 | 申請日: | 2013-04-28 |
| 公開(公告)號: | CN103279492A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 孫煒亮 | 申請(專利權)人: | 樂視網信息技術(北京)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 謝亮;唐與芬 |
| 地址: | 100026 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 抓取 網頁 方法 裝置 | ||
技術領域
本發明涉及互聯網搜索引擎領域,特別涉及一種抓取網頁的方法和裝置。
背景技術
隨著網絡的迅速發展,萬維網成為大量信息的載體,為有效地提取并利用這些信息,搜索引擎(Search?Engine)作為一個輔助人們檢索信息的工具,成為用戶訪問萬維網的入口和指南。
??搜索引擎抓取網頁是通過自己的網頁抓取程序(spider)實現的。Spider順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍。理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。搜索引擎抓取網頁的方法分為深度優先、寬度優先、權重優先。
深度優先:深度優先搜索是一種在開發爬蟲早期使用較多的方法。它的目的是要達到被搜索結構的葉結點(即那些不包含任何超鏈的HTML文件)?。在一個HTML文件中,當一個超鏈被選擇后,被鏈接的HTML文件將執行深度優先搜索,即在搜索其余的超鏈結果之前必須先完整地搜索單獨的一條鏈。深度優先搜索沿著HTML文件上的超鏈走到不能再深入為止,然后返回到某一個HTML文件,再繼續選擇該HTML文件中的其他超鏈。當不再有其他超鏈可選擇時,說明搜索已經結束。
寬度優先:寬度優先搜索算法(又稱廣度優先搜索)是最簡便的圖的搜索算法之一,這一算法也是很多重要的圖的算法的原型。Dijkstra單源最短路徑算法和Prim最小生成樹算法都采用了和寬度優先搜索類似的思想。其別名又叫BFS,屬于一種盲目搜尋法,目的是系統地展開并檢查圖中的所有節點,以找尋結果。換句話說,它并不考慮結果的可能位址,徹底地搜索整張圖,直到找到結果為止。
權重優先:指的是結合深度優先和寬度優先兩個步驟實現的抓取方式,通過優先實行廣度優先抓取前幾層,根據抓取URL地址數量結果,來決定后續優先抓取那些頁面。是深度優先和寬度優先的結合體。權重優先是目前主流搜索引擎采用的算法。
合理的搜索引擎都是通過權重優先來實現抓取網頁的。由于網站的設計是以用戶為中心,導致沒有更多的考慮搜索引擎抓取。導致真正重點內容和搜索引擎認為的重點內容有出入。
現有技術的一種解決方案為,借鑒通用搜索引擎的鏈接分析技術,對URL的重要性進行排序,優先抓取那些重要性高的頁面。比如?Junghoo?Cho在其論文(Junghoo?1998)中利用頁面的PageRank(Sergey?1998)值排序URL,優先抓取PageRank值高的頁面。但是這種方法僅僅計算待抓頁面的重要性值,并沒有考慮頁面與特定關鍵詞的相關性,因此用這種算法引導的聚焦爬蟲很容易迷失方向,抓下的頁面很少是與特定關鍵詞相關的,如果統計聚焦爬蟲抓取的所有網頁中與關鍵詞相關的頁面所占的比重為抓取率,那么這種解決方案的抓取率是比較低的。
現有技術中的另一種解決方案為,基于Davison(Davison?2000)發現的互聯網頁面的主題相鄰性(topical?locality)現象,即用超鏈接連接起來的兩個頁面比隨機的兩個頁面具有更大的相似性,來預測待抓取頁面與特定關鍵詞的相關性,即如果一張頁面與特定關鍵詞相關,那么它所連出去的頁面與該關鍵詞相關的可能性比較大,所以順著與特定關鍵詞相關的頁面出去的鏈接更可能找到其他關鍵詞相關的頁面。然而,這種僅僅利用父頁面與關鍵詞的相關度來預測子頁面與關鍵詞的相關度,并以此作為指導的聚焦爬蟲,不可避免地會錯失許多與該關鍵詞相關的頁面,如果統計聚焦爬蟲抓取的關鍵詞相關頁面與互聯網上所有的關鍵詞相關頁面的比率為抓取率,那么這種解決方案的抓取率是比較低的。
發明內容
針對現有技術存在的不足,本發明提供了一種在權重優先的狀態下,按照關鍵詞和鏈接地址的重要性分配內部鏈接地址,通過分配內部鏈接地址,提升新產生的頁面優先被搜索引擎抓取的效率的方法和裝置。
本發明提出的一個技術方案為一種抓取網頁的方法,包括如下步驟:
(1)根據新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;
(2)將關鍵詞按照權重值生成關鍵詞列表;
(3)從關鍵詞列表中提取關鍵詞放置到指定頁面里;
(4)根據關鍵詞抓取頁面。
本發明提出的另一個技術方案為一種抓取網頁的裝置,包括:?
權重計算模塊,用于根據得到的全部新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;
關鍵詞列表生成模塊,用于將關鍵詞按照權重值生成關鍵詞列表;
關鍵詞提取模塊,從關鍵詞列表中提取關鍵詞放置到指定頁面里;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于樂視網信息技術(北京)股份有限公司,未經樂視網信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310154941.6/2.html,轉載請聲明來源鉆瓜專利網。





