[發明專利]一種實現網站圖片爬蟲的方法、裝置、設備及存儲介質有效
| 申請號: | 202010362794.1 | 申請日: | 2020-04-30 |
| 公開(公告)號: | CN111597421B | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 郭澤生 | 申請(專利權)人: | 武漢思普崚技術有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F3/04845 |
| 代理公司: | 武漢智嘉聯合知識產權代理事務所(普通合伙) 42231 | 代理人: | 黃君軍 |
| 地址: | 430070 湖北省武漢市東湖開發區*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 網站 圖片 爬蟲 方法 裝置 設備 存儲 介質 | ||
1.一種實現網站圖片爬蟲的方法,其特征在于,包括如下步驟:
S1、根據用戶輸入的訪問信息訪問圖片服務器,并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息;
S2、篩選出當前頁面需要下載的圖片,將需要下載的圖片加入下載隊列中,并將所述下載隊列中的圖片逐一下載;
S3、當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理,并在下拉處理成功時,獲取下拉后的頁面的所有圖片信息,并重復步驟S2;
S4、當下拉處理不成功時,調用Autoit控件,以實現所有下載的圖片的自動保存,其中,所述Autoit控件中設置有通過Autoit編寫windows框架腳本,所述windows框架腳本用于將圖片自動保存至預設目錄下;
所述步驟S2具體包括:
S21、逐一獲取當前頁面的各個圖片信息,根據預設的下載規則判斷各個圖片是否需要下載;
S22、當當前所有的圖片均判斷完畢后,刪除不需要下載的圖片信息,并將需要下載的圖片加入下載隊列中;
S23、將所述下載隊列中的圖片逐一下載;
所述預設的下載規則具體為:將當前頁面預設位置的圖片下載。
2.根據權利要求1所述的實現網站圖片爬蟲的方法,其特征在于,所述步驟S3具體包括:
S31、當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理;
S32、判斷是否下拉出新的頁面,如果是則判斷當前頁面下拉成功,否則判斷當前頁面下拉不成功;
S33、當當前頁面下拉成功時,獲取下拉后的頁面的所有圖片信息,并重復步驟S2,以實現下拉后的頁面的圖片下載。
3.根據權利要求1所述的實現網站圖片爬蟲的方法,其特征在于,所述步驟S4中,所述windows框架腳本具體用于:
模擬人工右鍵點擊下載的圖片,然后模擬人工選擇圖片另存的目錄,并模擬人工點擊確定保存。
4.一種實現網站圖片爬蟲的裝置,其特征在于,包括:
圖片信息獲取模塊,用于根據用戶輸入的訪問信息訪問圖片服務器,并獲取當前訪問的圖片服務器網站的當前頁面的所有圖片信息;
圖片下載模塊,用于篩選出當前頁面需要下載的圖片,將需要下載的圖片加入下載隊列中,并將所述下載隊列中的圖片逐一下載;
頁面下拉模塊,用于當所述下載隊列中的圖片都下載完成后,對當前頁面進行翻頁下拉處理,并在下拉處理成功時,獲取下拉后的頁面的所有圖片信息,并下載下拉后的頁面中的需要下載的圖片;
圖片保存模塊,用于當下拉處理不成功時,調用Autoit控件,以實現所有下載的圖片的自動保存,其中,所述Autoit控件中設置有通過Autoit編寫windows框架腳本,所述windows框架腳本用于將圖片自動保存至預設目錄下;
所述圖片下載模塊具體包括:
下載判斷單元,用于逐一獲取當前頁面的各個圖片信息,根據預設的下載規則判斷各個圖片是否需要下載;
下載隊列添加單元,用于當當前所有的圖片均判斷完畢后,刪除不需要下載的圖片信息,并將需要下載的圖片加入下載隊列中;
下載單元,用于將所述下載隊列中的圖片逐一下載;
所述預設的下載規則具體為:將當前頁面預設位置的圖片下載。
5.根據權利要求4所述的實現網站圖片爬蟲的裝置,其特征在于,所述圖片保存模塊中,所述windows框架腳本具體用于:
模擬人工右鍵點擊下載的圖片,然后模擬人工選擇圖片另存的目錄,并模擬人工點擊確定保存。
6.一種實現網站圖片爬蟲的設備,其特征在于,包括處理器和存儲器;
所述存儲器上存儲有可被所述處理器執行的計算機可讀程序;
所述處理器執行所述計算機可讀程序時實現如權利要求1-3任意一項所述的實現網站圖片爬蟲的方法。
7.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執行,以實現如權利要求1-3任意一項所述的實現網站圖片爬蟲的方法中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢思普崚技術有限公司,未經武漢思普崚技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010362794.1/1.html,轉載請聲明來源鉆瓜專利網。





