[發明專利]一種避免網絡連接失敗后重復抓取分頁內容的方法在審
| 申請號: | 201810483679.2 | 申請日: | 2018-05-21 |
| 公開(公告)號: | CN108710683A | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 陳林;張來卿;龐嚴冬 | 申請(專利權)人: | 珠海橫琴盛達兆業科技投資有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F8/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 519031 廣東省珠海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 分頁 主表 分頁內容 網絡連接 鏈接 頁數 重復 總頁數 副表 保存 失敗 定時器 讀取 標題鏈接 爬蟲工具 爬蟲技術 數據對比 加載 跳過 拼接 替換 創建 | ||
1.一種避免網絡連接失敗后重復抓取分頁內容的方法,其特征在于:一、創建主副兩張表,主表用于保存標題、鏈接及鏈接對應的分頁總頁數、當前頁數等,副表用于保存分頁列表、鏈接及主表ID等;二、使用爬蟲工具定時抓取一中所述的內容,保存到主表中;三、加載主表內容,然后以當前頁數開始,總頁數為結束,進行循環,根據標題鏈接與循環值拼接分頁URL;四、抓取分頁內容時與從副表中讀取的數據對比,相同則跳過,繼續抓取下一行內容;五、最后把分頁的當前頁數替換掉主表中的,這樣下次抓取的分頁就不會重復;從而解決了網絡連接失敗后重新啟動定時器抓取每個分頁內容時容易重復抓取的問題。
2.根據權利要求1所述的基于SPRING BOOT平臺的一種避免網絡連接失敗后重復抓取分頁內容的方法,其特征在于:每次網絡連接失敗后,再次抓取時都從失敗后的那一頁開始抓取,并且每次抓取分頁列表時都與數據庫中的內容進行對比,不相同時才開始下一行的抓取;所述的方法具體包括如下步驟:
步驟一、創建主副兩張表,其中主表用于保存標題、標題的鏈接及鏈接對應的分頁總頁數、當前頁數等,副表用于保存分頁列表信息、列表的鏈接及主表的ID等;
步驟二、在項目中配置Quartz定時器,設定一個時間,定時調用爬蟲工具抓取步驟一中所述的內容,把其保存到主表中;
步驟三、定義分頁查詢任務,從數據庫中查詢出主表的內容,然后以當前頁數為開始值,總頁數為結束值,進行循環,在循環體內根據標題鏈接與循環值拼接出分頁URL;
步驟四、加載分頁URL,使用爬蟲工具獲取每個列表的鏈接,并與從副表中讀取的當前頁的鏈接進行對比,相同就跳過,然后繼續抓取下一行內容;
步驟五、保存完抓取的分頁內容后,把當前的頁數保存到主表中,替換掉原來的當前分頁數,網絡異常后就會從這個頁數開始,避免了從第一頁開始重復抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海橫琴盛達兆業科技投資有限公司,未經珠海橫琴盛達兆業科技投資有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810483679.2/1.html,轉載請聲明來源鉆瓜專利網。





