[發明專利]一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質有效
| 申請號: | 202010362794.1 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111597421B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 郭澤生 | 申請(專利權)人: | 武漢思普崚技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F3/04845 |
| 代理公司: | 武漢智嘉聯合知識產權代理事務所(普通合伙) 42231 | 代理人: | 黃君軍 |
| 地址: | 430070 湖北省武漢市東湖開發區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 網站 圖片 爬蟲 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質,所述方法包括:S1、訪問圖片服務器,并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息;S2、篩選出當前頁面需要下載的圖片,將需要下載的圖片加入下載隊列中,并將所述下載隊列中的圖片逐一下載;S3、當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理,并在下拉處理成功時,獲取下拉后的頁面的所有圖片信息,并重復步驟S2;S4、當下拉處理不成功時,調用Autoit控件,以實現所有下載的圖片的自動保存。本發明完全代替和模擬操作人員的動作,可以將網站上的所有圖片都下載下來,并且不需要再擔心網絡爬蟲帶來的封禁風險。
技術領域
本發明涉及計算機技術領域,特別涉及一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質。
背景技術
python(一種跨平臺的計算機程序設計語言)爬蟲是一種按照一定規則,自動抓取網絡數據的程序或腳本,但是現在很多互聯網網站為了保護自己的服務器,都增加反爬蟲策略,阻止python爬蟲的繼續采集,導致目前使用的python爬蟲在互聯網上進行數據抓取時,經常會遇見各種奇怪的封禁問題,使得爬蟲功能失效,工作無法正常進行。
因而現有技術還有待改進和提高。
發明內容
鑒于上述現有技術的不足之處,本發明的目的在于提供一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質,可通過代替和模擬操作人員的動作將網站上的圖片下載,無法再擔心網絡爬蟲帶來的封禁風險。
為了達到上述目的,本發明采取了以下技術方案:
第一方面,本發明提供了一種實現網站圖片爬蟲的方法,包括如下步驟:
S1、根據用戶輸入的訪問信息訪問圖片服務器,并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息;
S2、篩選出當前頁面需要下載的圖片,將需要下載的圖片加入下載隊列中,并將所述下載隊列中的圖片逐一下載;
S3、當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理,并在下拉處理成功時,獲取下拉后的頁面的所有圖片信息,并重復步驟S2;
S4、當下拉處理不成功時,調用Autoit控件,以實現所有下載的圖片的自動保存,其中,所述Autoit控件中設置有通過Autoit編寫windows框架腳本,所述windows框架腳本用于將圖片自動保存至預設目錄下。
第二方面,本發明提供了一種實現網站圖片爬蟲的裝置,包括:
圖片信息獲取模塊,用于根據用戶輸入的訪問信息訪問圖片服務器,并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息;
圖片下載模塊,用于篩選出當前頁面需要下載的圖片,將需要下載的圖片加入下載隊列中,并將所述下載隊列中的圖片逐一下載;
頁面下拉模塊,用于當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理,并在下拉處理成功時,獲取下拉后的頁面的所有圖片信息,并下載下拉后的頁面中的需要下載的圖片;
圖片保存模塊,用于當下拉處理不成功時,調用Autoit控件,以實現所有下載的圖片的自動保存,其中,所述Autoit控件中設置有通過Autoit編寫windows框架腳本,所述windows框架腳本用于將圖片自動保存至預設目錄下。
第三方面,本發明提供了一種實現網站圖片爬蟲的設備,其特征在于,包括處理器和存儲器;
所述存儲器上存儲有可被所述處理器執行的計算機可讀程序;
所述處理器執行所述計算機可讀程序時實現如上所述的實現網站圖片爬蟲的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢思普崚技術有限公司,未經武漢思普崚技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010362794.1/2.html,轉載請聲明來源鉆瓜專利網。





