[發明專利]一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質有效

申請號：	202010362794.1	申請日：	2020-04-30
公開（公告）號：	CN111597421B	公開（公告）日：	2022-08-30
發明（設計）人：	郭澤生	申請（專利權）人：	武漢思普崚技術有限公司
主分類號：	G06F16/951	分類號：	G06F16/951;G06F3/04845
代理公司：	武漢智嘉聯合知識產權代理事務所(普通合伙) 42231	代理人：	黃君軍
地址：	430070 湖北省武漢市東湖開發區***	國省代碼：	湖北;42
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種實現網站圖片爬蟲方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質，所述方法包括：S1、訪問圖片服務器，并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息；S2、篩選出當前頁面需要下載的圖片，將需要下載的圖片加入下載隊列中，并將所述下載隊列中的圖片逐一下載；S3、當所述下載隊列中的圖片都下載完成后，對當前頁面進行翻頁下拉處理，并在下拉處理成功時，獲取下拉后的頁面的所有圖片信息，并重復步驟S2；S4、當下拉處理不成功時，調用Autoit控件，以實現所有下載的圖片的自動保存。本發明完全代替和模擬操作人員的動作，可以將網站上的所有圖片都下載下來，并且不需要再擔心網絡爬蟲帶來的封禁風險。

技術領域

本發明涉及計算機技術領域，特別涉及一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質。

背景技術

python(一種跨平臺的計算機程序設計語言)爬蟲是一種按照一定規則，自動抓取網絡數據的程序或腳本，但是現在很多互聯網網站為了保護自己的服務器，都增加反爬蟲策略，阻止python爬蟲的繼續采集，導致目前使用的python爬蟲在互聯網上進行數據抓取時，經常會遇見各種奇怪的封禁問題，使得爬蟲功能失效，工作無法正常進行。

因而現有技術還有待改進和提高。

發明內容

鑒于上述現有技術的不足之處，本發明的目的在于提供一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質，可通過代替和模擬操作人員的動作將網站上的圖片下載，無法再擔心網絡爬蟲帶來的封禁風險。

為了達到上述目的，本發明采取了以下技術方案：

第一方面，本發明提供了一種實現網站圖片爬蟲的方法，包括如下步驟：

S1、根據用戶輸入的訪問信息訪問圖片服務器，并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息；

S2、篩選出當前頁面需要下載的圖片，將需要下載的圖片加入下載隊列中，并將所述下載隊列中的圖片逐一下載；

S3、當所述下載隊列中的圖片都下載完成后，對當前頁面進行翻頁下拉處理，并在下拉處理成功時，獲取下拉后的頁面的所有圖片信息，并重復步驟S2；

S4、當下拉處理不成功時，調用Autoit控件，以實現所有下載的圖片的自動保存，其中，所述Autoit控件中設置有通過Autoit編寫windows框架腳本，所述windows框架腳本用于將圖片自動保存至預設目錄下。

第二方面，本發明提供了一種實現網站圖片爬蟲的裝置，包括：

圖片信息獲取模塊，用于根據用戶輸入的訪問信息訪問圖片服務器，并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息；

圖片下載模塊，用于篩選出當前頁面需要下載的圖片，將需要下載的圖片加入下載隊列中，并將所述下載隊列中的圖片逐一下載；