[發明專利]基于Node.js的爬蟲方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202011267489.0 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112380413A | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 董幫付;于海生 | 申請(專利權)人: | 平安普惠企業管理有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 node js 爬蟲 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及大數據技術領域,應用于數據采集技術領域,揭露了一種基于Node.js的爬蟲方法、裝置、設備及存儲介質。該基于Node.js的爬蟲方法包括獲取待訪問隊列;其中,所述待訪問隊列包括多個訪問地址;每一所述訪問地址對應一網頁;基于所述訪問地址,調用多個爬蟲任務進程執行圖像下載任務;其中,每一所述爬蟲任務進程對應處理一所述訪問地址;接收每一所述爬蟲任務進程下載的圖像數據,并將所述圖像數據存儲至結果處理隊列中;調用一結果處理進程從所述結果處理隊列中取出每一所述圖像數據,并寫入至目標文件中。該基于Node.js的爬蟲方法可有效解決當前單進程方式爬蟲導致的爬蟲效率的問題。
技術領域
本發明涉及大數據技術領域,尤其涉及一種基于Node.js的爬蟲方法、裝置、計算機設備及存儲介質。
背景技術
近年來,隨著互聯網網站、受眾、媒介越來越多,互聯網數據呈指數級增長。因此,獲取網站資源、整合行業數據顯得尤為重要。通過爬蟲方法獲取網絡資源,也成為了一種必要的手段。
目前,爬蟲大多采用python實現,這就導致需要通過后臺服務器交換數據,對于前端開發人員來說實現上較為繁瑣。此外,由于目前的爬蟲采用單進程的方式實現,即在爬取多頁面的數據時,只有在當前頁面爬取完畢,才可爬取下一個頁面的數據,爬蟲效率低。
發明內容
本發明實施例提供一種基于Node.js的爬蟲方法、裝置、計算機設備及存儲介質,以解決傳統爬蟲技術的效率低的問題。
一種基于Node.js的爬蟲方法,包括:
獲取待訪問隊列;其中,所述待訪問隊列包括多個訪問地址;每一所述訪問地址對應一網頁;
基于所述訪問地址,調用多個爬蟲任務進程執行圖像下載任務;其中,每一所述爬蟲任務進程對應處理一所述訪問地址;
接收每一所述爬蟲任務進程下載的圖像數據,并將所述圖像數據存儲至結果處理隊列中;
調用一結果處理進程從所述結果處理隊列中取出每一所述圖像數據,并寫入至目標文件中。
一種基于Node.js的爬蟲裝置,包括:
待訪問隊列獲取模塊,用于獲取待訪問隊列;其中,所述待訪問隊列包括多個訪問地址;每一所述訪問地址對應一網頁;
圖像下載模塊,用于基于所述訪問地址,調用多個爬蟲任務進程執行圖像下載任務;其中,每一所述爬蟲任務進程對應處理一所述訪問地址;
下載數據存儲模塊,用于接收每一所述爬蟲任務進程下載的圖像數據,并將所述圖像數據存儲至結果處理隊列中;
結果寫入模塊,用于調用一結果處理進程從所述結果處理隊列中取出每一所述圖像數據,并寫入至目標文件中。
一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述基于Node.js的爬蟲方法的步驟。
一種計算機存儲介質,所述計算機存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述基于Node.js的爬蟲方法的步驟。
上述基于Node.js的爬蟲方法、裝置、計算機設備及存儲介質中,本實施例中,通過依賴Node.js工具實現爬蟲,無需通過后臺服務器交換數據,可以直接在頁面上實現,對于前端開發人員來說,掌握門檻低。然后,通過多進程的方式并行爬取多頁面的數據,以有效解決當前單進程方式爬蟲導致的爬蟲效率的問題。最后,為防止多進程寫入文件引發的進程資源搶占的問題,通過調用一結果處理進程從所述結果處理隊列中取出每一所述圖像數據,并寫入至目標文件中,將結果寫入以及圖像下載的任務分離,可有效避免多個進程爬蟲任務進程同時操作一個文件的問題。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業管理有限公司,未經平安普惠企業管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011267489.0/2.html,轉載請聲明來源鉆瓜專利網。





