[發(fā)明專利]一種避免網(wǎng)絡(luò)連接失敗后重復(fù)抓取分頁內(nèi)容的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810483679.2 | 申請(qǐng)日: | 2018-05-21 |
| 公開(公告)號(hào): | CN108710683A | 公開(公告)日: | 2018-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 陳林;張來卿;龐嚴(yán)冬 | 申請(qǐng)(專利權(quán))人: | 珠海橫琴盛達(dá)兆業(yè)科技投資有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F8/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 519031 廣東省珠海*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抓取 分頁 主表 分頁內(nèi)容 網(wǎng)絡(luò)連接 鏈接 頁數(shù) 重復(fù) 總頁數(shù) 副表 保存 失敗 定時(shí)器 讀取 標(biāo)題鏈接 爬蟲工具 爬蟲技術(shù) 數(shù)據(jù)對(duì)比 加載 跳過 拼接 替換 創(chuàng)建 | ||
本發(fā)明涉及SPRING BOOT爬蟲技術(shù)領(lǐng)域,特別涉及一種避免網(wǎng)絡(luò)連接失敗后重復(fù)抓取分頁內(nèi)容的方法。本發(fā)明方法如下:1、創(chuàng)建主副兩張表,主表用于保存標(biāo)題、鏈接及鏈接對(duì)應(yīng)的分頁總頁數(shù)、當(dāng)前頁數(shù)等,副表用于保存分頁列表、鏈接及主表ID等;2、使用爬蟲工具定時(shí)抓取1中所述的內(nèi)容,保存到主表中;3、加載主表內(nèi)容,然后以當(dāng)前頁數(shù)開始,總頁數(shù)為結(jié)束,進(jìn)行循環(huán),根據(jù)標(biāo)題鏈接與循環(huán)值拼接分頁URL;4、抓取分頁內(nèi)容時(shí)與從副表中讀取的數(shù)據(jù)對(duì)比,相同則跳過,繼續(xù)抓取下一行內(nèi)容;5、最后把分頁的當(dāng)前頁數(shù)替換掉主表中的,這樣下次抓取的分頁就不會(huì)重復(fù)。本發(fā)明解決了網(wǎng)絡(luò)連接失敗后重新啟動(dòng)定時(shí)器抓取每個(gè)分頁內(nèi)容時(shí)容易重復(fù)抓取的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及Spring Boot爬蟲技術(shù)領(lǐng)域,特別涉及一種避免網(wǎng)絡(luò)連接失敗后重復(fù)抓取分頁內(nèi)容的方法。
背景技術(shù)
在進(jìn)行網(wǎng)頁情報(bào)信息抓取時(shí),經(jīng)常會(huì)有各種各樣的原因造成連接不上所要抓取的網(wǎng)站,比如抓取的主機(jī)發(fā)生斷網(wǎng),或者網(wǎng)頁所屬的服務(wù)器重啟等。如果不進(jìn)行一定的技術(shù)處理,那每次定時(shí)器啟動(dòng)時(shí)就會(huì)從分頁的第一頁重新開始抓取,造成數(shù)據(jù)庫中大量信息的重復(fù);為了解決這些問題,需要實(shí)現(xiàn)一種能解決重復(fù)抓取的功能。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題在于提供一種避免網(wǎng)絡(luò)連接失敗后重復(fù)抓取分頁內(nèi)容的方法;解決了網(wǎng)絡(luò)連接失敗后重新啟動(dòng)定時(shí)器抓取每個(gè)分頁內(nèi)容時(shí)容易重復(fù)抓取的問題。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案是:1、創(chuàng)建主副兩張表,主表用于保存標(biāo)題、鏈接及鏈接對(duì)應(yīng)的分頁總頁數(shù)、當(dāng)前頁數(shù)等,副表用于保存分頁列表、鏈接及主表ID等;2、使用爬蟲工具定時(shí)抓取1中所述的內(nèi)容,保存到主表中;3、加載主表內(nèi)容,然后以當(dāng)前頁數(shù)開始,總頁數(shù)為結(jié)束,進(jìn)行循環(huán),根據(jù)標(biāo)題鏈接與循環(huán)值拼接分頁URL;4、抓取分頁內(nèi)容時(shí)與從副表中讀取的數(shù)據(jù)對(duì)比,相同則跳過,繼續(xù)抓取下一行內(nèi)容;5、最后把分頁的當(dāng)前頁數(shù)替換掉主表中的,這樣下次抓取的分頁就不會(huì)重復(fù)。從而解決了網(wǎng)絡(luò)連接失敗后重新啟動(dòng)定時(shí)器抓取每個(gè)分頁內(nèi)容時(shí)重復(fù)抓取的問題。
所述的方法具體包括如下步驟:
步驟一、創(chuàng)建主副兩張表,其中主表用于保存標(biāo)題、標(biāo)題的鏈接及鏈接對(duì)應(yīng)的分頁總頁數(shù)、當(dāng)前頁數(shù)等,副表用于保存分頁列表信息、列表的鏈接及主表的ID等;
步驟二、在項(xiàng)目中配置Quartz定時(shí)器,設(shè)定一個(gè)時(shí)間,定時(shí)調(diào)用爬蟲工具抓取步驟一中所述的內(nèi)容,把其保存到主表中;
步驟三、定義分頁查詢?nèi)蝿?wù),從數(shù)據(jù)庫中查詢出主表的內(nèi)容,然后以當(dāng)前頁數(shù)為開始值,總頁數(shù)為結(jié)束值,進(jìn)行循環(huán),在循環(huán)體內(nèi)根據(jù)標(biāo)題鏈接與循環(huán)值拼接出分頁URL;
步驟四、加載分頁URL,使用爬蟲工具獲取每個(gè)列表的鏈接,并與從副表中讀取的當(dāng)前頁的鏈接進(jìn)行對(duì)比,相同就跳過,然后繼續(xù)抓取下一行內(nèi)容;
步驟五、保存完抓取的分頁內(nèi)容后,把當(dāng)前的頁數(shù)保存到主表中,替換掉原來的當(dāng)前分頁數(shù),若網(wǎng)絡(luò)異常就會(huì)從這個(gè)頁數(shù)開始,避免了從第一頁開始重復(fù)抓取。
本發(fā)明的有益效果:通過主副表的形式,把每次網(wǎng)絡(luò)連接失敗后的分頁所屬的當(dāng)前頁數(shù)保存到主表中,再次抓取的時(shí)候,就從失敗后的那一頁開始抓取,并且每次抓取分頁列表時(shí)都與數(shù)據(jù)庫中的內(nèi)容進(jìn)行對(duì)比,不相同時(shí)才開始下一行的抓取,從而達(dá)到網(wǎng)絡(luò)連接失敗后重新啟動(dòng)定時(shí)器抓取分頁內(nèi)容時(shí)不會(huì)重復(fù)的目的。有效解決了網(wǎng)絡(luò)連接失敗后重新啟動(dòng)定時(shí)器抓取每個(gè)分頁內(nèi)容時(shí)容易重復(fù)抓取的問題。
附圖說明
下面結(jié)合附圖對(duì)本發(fā)明進(jìn)一步說明:
圖1為本發(fā)明的流程圖。
具體實(shí)施方式
如圖1所示,本發(fā)明采用如下步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于珠海橫琴盛達(dá)兆業(yè)科技投資有限公司,未經(jīng)珠海橫琴盛達(dá)兆業(yè)科技投資有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810483679.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 采用HTML5技術(shù)對(duì)網(wǎng)頁內(nèi)容進(jìn)行分頁顯示的方法
- 一種基于HTML標(biāo)簽進(jìn)行文檔分頁打印的方法
- 新聞信息獲取方法及系統(tǒng)
- 頁面內(nèi)容刷新方法、系統(tǒng)及頁面內(nèi)容同步刷新的管理系統(tǒng)
- 網(wǎng)頁內(nèi)容的分頁展現(xiàn)方法、裝置及服務(wù)器、存儲(chǔ)介質(zhì)
- 一種避免網(wǎng)絡(luò)連接失敗后重復(fù)抓取分頁內(nèi)容的方法
- 網(wǎng)頁內(nèi)容的分頁展現(xiàn)方法、裝置及服務(wù)器、存儲(chǔ)介質(zhì)
- 一種對(duì)網(wǎng)頁內(nèi)容進(jìn)行分頁排版的方法及系統(tǒng)
- 一種內(nèi)容展示方法和相關(guān)裝置
- 一種分頁對(duì)照方法





