[發明專利]論壇目錄頁內容爬取方法和裝置在審
| 申請號: | 201511019097.1 | 申請日: | 2015-12-29 |
| 公開(公告)號: | CN106933841A | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 蘭光明 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司11240 | 代理人: | 韓建偉,張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 論壇 目錄 內容 方法 裝置 | ||
技術領域
本申請涉及數據處理領域,具體而言,涉及一種論壇目錄頁內容爬取方法和裝置。
背景技術
通過網絡爬蟲來爬取互聯網上的海量數據越來越受到熱捧,然而全球互聯網上的數據類型千差外別,例如,新聞、財經類的數據由于實時性的原因,通常利用發布日期加上一定的規則產生唯一的統一資源定位符(Uniform Resource Locator,簡稱為URL),這種網絡資源的爬取對于網絡爬蟲來說是十分便利的,通過傳統的廣度遍歷即可逐層爬取;然而,網絡上另外一個重要的資源,即論壇類的網頁,該類網頁的一個顯著特點就是在目錄頁面網頁的缺省排序是按照最后的回復時間來排序的。當前大多網絡爬蟲爬取論壇目錄頁內容時,一般是預先指定需要爬取的規則(例如,針對有翻頁的目錄頁,指定最大翻頁數),然后再利用爬取技術來逐步翻頁爬取每頁的內容。
現有技術在爬取論壇目錄頁面的時候,只能根據解析出來的URL作為爬取論壇的來源。由于論壇目錄頁面通常將最后回復的帖子列在目錄頁面的最前面,如果網絡爬蟲從上到下依次爬取各個帖子,將爬取到很多舊的無效的帖子(例如,數月前發表的帖子,僅僅是因為有人最近回帖而排在最前面)。而網絡數據的時效性通常是網絡爬蟲首要關注的,當前的方法通常是人為配置目標網站爬取的最大翻頁數,然后依次遞增爬取,當達到最大翻頁數時即停止爬取。上述方法對于熱門論壇,由于發帖量巨大,最大翻頁數可能不夠,會導致數據丟失;而對于非熱門論壇,每次都爬取最大翻頁數的頁面將造成網絡流量和帶寬的巨大浪費,此外,如果在爬取量較大的情況下,在本地解析也將耗時費力,造成資源的浪費。
針對相關技術中通過翻頁爬取論壇目錄頁面內容時,在發帖量較大時最大翻頁數不夠造成數據丟失,在發帖量較少時爬取最大翻頁數的頁面浪費網絡資源的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種論壇目錄頁內容爬取方法和裝置,以解決相關技術中通過翻頁爬取論壇目錄頁面內容時,在發帖量較大時最大翻頁數不夠造成數據丟失,在發帖量較少時爬取最大翻頁數的頁面浪費網絡資源的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種論壇目錄頁內容爬取方法。該方法包括:爬取論壇目錄頁的第一爬取頁面中的文章,得到爬取結果,其中,論壇目錄頁中的文章按照發表時間排序;從爬取結果中獲取第一爬取頁面中的最后一篇文章的發表時間;判斷發表時間是否晚于預設時間;在判斷出發表時間晚于預設時間時,跳轉至論壇目錄頁的第二爬取頁面,并爬取第二爬取頁面中的文章,其中,第二爬取頁面位于第一爬取頁面之后;以及在判斷出發表時間不晚于預設時間時,停止爬取論壇目錄頁中的文章。
進一步地,從爬取結果中獲取第一爬取頁面中最后一篇文章的發表時間包括:從爬取結果中獲取第一爬取頁面中最后一篇文章對應的內容;以及通過預設算法從最后一篇文章對應的內容中解析出發表時間。
進一步地,在判斷出發表時間晚于預設時間時,跳轉至論壇目錄頁的第二爬取頁面,并爬取第二爬取頁面中的文章包括:從第一爬取頁面中獲取第二爬取頁面的鏈接;根據第二爬取頁面的鏈接跳轉至第二爬取頁面;以及爬取第二爬取頁面中的文章。
進一步地,在爬取論壇目錄頁的第一爬取頁面中的文章,得到爬取結果之前,該方法還包括:獲取預設排序規則,其中,預設排序規則用于使論壇目錄頁的內容按照發表時間排序;以及根據預設排序規則將論壇目錄頁中的文章按照發表時間排序。
進一步地,根據預設排序規則將論壇目錄頁中的文章按照發表時間排序包括:獲取論壇目錄頁的鏈接;以及根據論壇目錄頁的鏈接按照預設排序規則構建爬取請求,其中,根據爬取請求從服務器獲取到的論壇目錄頁中的文章按照發表時間排序。
為了實現上述目的,根據本申請的另一方面,提供了一種論壇目錄頁內容爬取裝置。該裝置包括:第一爬取單元,用于爬取論壇目錄頁的第一爬取頁面中的文章,得到爬取結果,其中,論壇目錄頁中的文章按照發表時間排序;第一獲取單元,用于從爬取結果中獲取第一爬取頁面中的最后一篇文章的發表時間;判斷單元,用于判斷發表時間是否晚于預設時間;以及第二爬取單元,用于在判斷出發表時間晚于預設時間時,跳轉至論壇目錄頁的第二爬取頁面,并爬取第二爬取頁面中的文章,其中,第二爬取頁面位于第一爬取頁面之后,在判斷出發表時間不晚于預設時間時,停止爬取論壇目錄頁中的文章。
進一步地,第一獲取單元包括:第一獲取模塊,用于從爬取結果中獲取第一爬取頁面中最后一篇文章對應的內容;以及解析模塊,用于通過預設算法從最后一篇文章對應的內容中解析出發表時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201511019097.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種城市生活污水處理設備
- 下一篇:一種用于回收馬鈴薯淀粉生產廢水的裝置
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





