[發明專利]一種抓取網頁的方法和裝置有效
| 申請號: | 201310154941.6 | 申請日: | 2013-04-28 |
| 公開(公告)號: | CN103279492A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 孫煒亮 | 申請(專利權)人: | 樂視網信息技術(北京)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 謝亮;唐與芬 |
| 地址: | 100026 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 抓取 網頁 方法 裝置 | ||
1.一種抓取網頁的方法,其特征在于,包括如下步驟:
(1)根據新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;
(2)將關鍵詞按照權重值生成關鍵詞列表;
(3)從關鍵詞列表中提取關鍵詞放置到指定頁面里;
(4)根據關鍵詞抓取頁面。
2.如權利要求1所述的方法,其中所述步驟(1)中計算所述權重值的公式如下:
其中,表示關鍵詞指數;表示關鍵詞競爭度,表示以自然數e為底的關鍵詞競爭度的對數取整;rank表示檢索關鍵詞所對應的網站排名。
3.如權利要求1所述的方法,還包括步驟:為所有頁面建立唯一ID與URL地址的對應表,所述ID為頁面的序列號。
4.如權利要求3所述的方法,其中所述步驟(3)為取M個關鍵詞放置到指定頁面里,M為URL地址列表中的關鍵承載數量,具體包括:
a)?首先通過內部建立所有要推送的關鍵詞和URL地址列表;
b)?通過所述計算權重值公式得到關鍵詞對應的權重值;
c)?將所有關鍵詞按照權重值倍數生成一個列表,稱為關鍵詞總列表,并將所有關鍵詞隨機打撒重新排列,再將所有關鍵詞混雜;?
d)?在所述ID與URL地址的對應表中按順序從所述關鍵詞總列表中按ID順序抽取M個關鍵詞展示到頁面中。
5.如權利要求4所述的方法,其中所述步驟?d)中,如果超出所述關鍵詞總列表則進行循環處理。
6.如權利要求2所述的方法,其中所述的關鍵詞指數為在index.baidu.com中檢索關鍵詞得到的一段時期內的日平均檢索量值。
7.如權利要求2所述的方法,其中所述的關鍵詞競爭度為在指定搜索網站中檢索關鍵詞得到的收錄數。
8.如權利要求4所述的方法,其中還包括步驟:按照權重值定期更新所述關鍵詞列表。
9.一種抓取網頁的裝置,包括:?
權重計算模塊,用于根據得到的全部新鏈接的關鍵詞和URL地址,計算所述新鏈接URL地址的關鍵詞的權重值;
關鍵詞列表生成模塊,用于將關鍵詞按照權重值生成關鍵詞列表;
關鍵詞提取模塊,從關鍵詞列表中提取關鍵詞放置到指定頁面里;
頁面抓取模塊,用于根據關鍵詞抓取頁面。
10.如權利要求9所述的裝置,其中所述權重計算模塊計算所述權重值的公式如下:
其中,表示關鍵詞指數;表示關鍵詞競爭度,表示以自然數e為底的關鍵詞競爭度的對數取整;rank表示檢索關鍵詞所對應的網站排名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于樂視網信息技術(北京)股份有限公司,未經樂視網信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310154941.6/1.html,轉載請聲明來源鉆瓜專利網。





