[發明專利]論壇目錄頁內容爬取方法和裝置在審
| 申請號: | 201511019059.6 | 申請日: | 2015-12-29 |
| 公開(公告)號: | CN106933840A | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 蘭光明 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 論壇 目錄 內容 方法 裝置 | ||
技術領域
本申請涉及數據處理領域,具體而言,涉及一種論壇目錄頁內容爬取方法和裝置。
背景技術
通過網絡爬蟲來爬取互聯網上的海量數據越來越受到熱捧,然而全球互聯網上的數據類型千差外別,例如,新聞、財經類的數據由于實時性的原因,通常利用發布日期加上一定的規則產生唯一的統一資源定位符(Uniform Resource Locator,簡稱為URL),這種網絡資源的爬取對于網絡爬蟲來說是十分便利的,通過傳統的廣度遍歷即可逐層爬取;然而,網絡上另外一個重要的資源就是論壇類的網頁,該類網頁的一個顯著特點就是在目錄頁面網頁的缺省排序是按照最后的回復時間來排序的。當前大多網絡爬蟲爬取的時候,一般是預先指定需要爬取的規則(例如,針對有翻頁的目錄頁,指定最大翻頁數),然后再利用爬取技術來逐步翻頁爬取每頁的內容。
現有技術在爬取論壇目錄頁面的時候,只能根據解析出來的URL作為爬取論壇的來源。由于論壇目錄頁面通常將最后回復的帖子列在目錄頁面的最前面,如果網絡爬蟲從上到下依次爬取各個帖子,將爬取到很多舊的無效的帖子(例如,數月前發表的帖子,僅僅是因為有人最近回帖而排在最前面)。而網絡數據的時效性通常是爬蟲首要關注的,當前的方法通常是先將各個帖子(例如,文章)爬取下來,然后再判斷各個帖子的發帖時間,如果超過系統規定的閾值(例如,大于7天)的帖子將被丟棄。該方法的缺點是浪費巨大的網絡流量和帶寬,因為通常需要先從網絡上將網頁內容爬取到本地,然后在本地對網站內容解析出發帖時間,再判斷是否需要丟棄該帖子;同時,如果在爬取量較大的情況下,在本地解析也十分將耗時而且耗費資源。
針對相關技術中在爬取論壇目錄頁的內容時嚴重浪費網絡資源的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種論壇目錄頁內容爬取方法和裝置,以解決相關技術中在爬取論壇目錄頁的內容時嚴重浪費網絡資源的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種論壇目錄頁內容爬取方法。該方法包括:獲取論壇目錄頁的鏈接;根據論壇目錄頁的鏈接按照預設排序規則 構建爬取請求,其中,預設排序規則用于使論壇目錄頁的內容按照發表時間排序,爬取請求用于向網站服務器請求論壇目錄頁的內容;以及根據爬取請求進行論壇目錄頁內容的爬取。
進一步地,獲取論壇目錄頁的鏈接包括:獲取目標網站的各個頁面的鏈接,其中,目標網站為需要進行論壇目錄頁內容爬取的網站;分別判斷各個頁面的鏈接是否滿足第一預設規則;以及獲取各個頁面的鏈接中滿足第一預設規則的鏈接,作為論壇目錄頁的鏈接。
進一步地,根據爬取請求進行論壇目錄頁內容的爬取包括:將爬取請求發送至網站服務器,其中,網站服務器根據爬取請求,將論壇目錄頁的內容按照發表時間進行排序,并返回按照發表時間排序后的論壇目錄頁的內容;以及接收網站服務器返回的論壇目錄頁的內容。
進一步地,預設排序規則包括多個排序規則,根據論壇目錄頁的鏈接按照預設排序規則構建爬取請求包括:確定論壇目錄頁的鏈接的類型;根據論壇目錄頁的鏈接的類型選擇對應的排序規則;以及根據論壇目錄頁的鏈接的類型對應的排序規則構建爬取請求。
進一步地,預設排序規則包括基于文本增加的排序規則、基于Cookie的排序規則和基于文本替換的排序規則。
為了實現上述目的,根據本申請的另一方面,提供了一種論壇目錄頁內容爬取裝置。該裝置包括:獲取單元,用于獲取論壇目錄頁的鏈接;構建單元,用于根據論壇目錄頁的鏈接按照預設排序規則構建爬取請求,其中,預設排序規則用于使論壇目錄頁的內容按照發表時間排序,爬取請求用于向網站服務器請求論壇目錄頁的內容;以及爬取單元,用于根據爬取請求進行論壇目錄頁內容的爬取。
進一步地,獲取單元包括:第一獲取模塊,用于獲取目標網站的各個頁面的鏈接,其中,目標網站為需要進行論壇目錄頁內容爬取的網站;第一判斷模塊,用于分別判斷各個頁面的鏈接是否滿足第一預設規則;以及第二獲取模塊,用于獲取各個頁面的鏈接中滿足第一預設規則的鏈接,作為論壇目錄頁的鏈接。
進一步地,爬取單元包括:發送模塊,用于將爬取請求發送至網站服務器,其中,網站服務器根據爬取請求,將論壇目錄頁的內容按照發表時間進行排序,并返回按照發表時間排序后的論壇目錄頁的內容;以及接收模塊,用于接收網站服務器返回的論壇目錄頁的內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511019059.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種污水生化處理裝置
- 下一篇:一種太陽能污水處理裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





