[發明專利]數據抓取系統、方法在審
| 申請號: | 202011485713.3 | 申請日: | 2020-12-16 |
| 公開(公告)號: | CN112637049A | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 石忠民;周錦裕 | 申請(專利權)人: | 廣州索答信息科技有限公司 |
| 主分類號: | H04L12/64 | 分類號: | H04L12/64;H04L12/46;G06F9/455 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 曾令軍 |
| 地址: | 510000 廣東省廣州市高新技術*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 抓取 系統 方法 | ||
本發明提供一種數據抓取系統、方法,該數據抓取系統包括:服務器分別與交換機、客戶端連接;交換機與撥號網絡連接,且每個撥號網絡在交換機上的對應VLAN號不同;服務器安裝有至少兩個虛擬操作系統,服務器通過虛擬操作系統與撥號網絡連接,且每個虛擬操作系統連接的撥號網絡不同,通過撥號網絡訪問數據源;客戶端存儲有動態IP池,服務器控制虛擬操作系統根據動態IP池中的IP串聯訪問數據源以進行數據抓取。本發明通過服務器上的多個虛擬操作系統分別連接不同的撥號網絡,并利用動態IP池中的IP進行串聯訪問數據源,無需使用多個服務器擴展撥號網絡,減少了服務運行的成本費用,且能夠對不同的鏈接使用特定的鏈路進行訪問,提高了數據抓取的效率。
技術領域
本發明涉及大數據獲取領域,尤其涉及一種數據抓取系統、方法。
背景技術
互聯網數據抓取時,使用一個融合性的撥號網絡進行數據抓取。目前電信運營商分別是中國電信,中國移動,中國聯通等,但他們的網絡接入方式一般為固定IP的光纖接入和動態撥號接入兩種,使用固定IP接入方式的網絡進度數據抓取時,很容易被源網站屏蔽,所以一般使用撥號網絡方式抓取。但如果僅使用單獨1條撥號網絡方式進行數據抓取,那在短時間還是會與固定IP的網絡接入方式一樣,因為撥號網絡要每次在撥號時,才會改變IP,但如果撥號重撥頻率較為密集,約30秒內重撥一次,長期如此,很容易會導致被電信運營商監測到,也會被屏蔽或中止處理。所以一般數據抓取會使用多條撥號網絡進行抓取。但是撥號操作是進行在系統層面,一個系統上不能進行多個不同撥號網絡進行撥號,如果用不同的服務器來擴展撥號網絡的能力,會較大的增加服務運行的成本費用,因為只是網絡接口這單方面的限制而導致要新買服務器,這樣成本增加較大。而如果使用路由器方式對撥號網絡進行屏蔽,雖然也能緩解,但也無法在路由器上對每個數據抓取的鏈接使用特定的鏈路進行訪問,降低了數據抓取的效率。
發明內容
為了克服現有技術的不足,本發明提出一種數據抓取系統、方法,將交換機與多個撥號網絡分別連接,通過服務器上的多個虛擬操作系統分別連接不同的撥號網絡,并利用動態IP池中的IP進行串聯訪問數據源,無需使用多個服務器擴展撥號網絡,減少了服務運行的成本費用,且能夠對不同的鏈接使用特定的鏈路進行訪問,提高了數據抓取的效率。
為解決上述問題,本發明采用的一個技術方案為:一種數據抓取系統,所述數據抓取系統包括:交換機、服務器以及客戶端,所述服務器分別與所述交換機、客戶端連接;所述交換機與至少兩個撥號網絡連接,且每個撥號網絡在所述交換機上的對應VLAN號不同;所述服務器安裝有至少兩個虛擬操作系統,所述服務器通過所述虛擬操作系統與所述撥號網絡連接,且每個虛擬操作系統連接的所述撥號網絡不同,通過所述撥號網絡訪問數據源;所述客戶端存儲有動態IP池,所述服務器控制所述虛擬操作系統根據所述動態IP池中的IP串聯訪問所述數據源以進行數據抓取。
進一步地,所述撥號網絡為ADSL撥號網絡。
進一步地,所述虛擬操作系統的數量與所述撥號網絡的數量相同,且一一對應。
進一步地,所述服務器控制所述虛擬操作系統根據所述動態IP池中的IP串聯訪問所述數據源以進行數據抓取的步驟具體包括:所述服務器控制所述虛擬操作系統對所述動態IP池中的IP進行排序,根據排序結果依次選擇所述IP訪問所述數據源。
進一步地,所述根據排序結果依次選擇所述IP訪問所述數據源的步驟具體包括:判斷通過當前的IP訪問數據源的時間是否達到預設值;若是,則斷開與網絡的連接,根據所述排序結果通過當前IP的下一個IP訪問所述數據源;若否,繼續訪問所述數據源。
基于相同的發明構思,本發明還提出一種數據抓取方法,所述數據抓取方法包括:S101:創建虛擬操作系統,并控制至少兩個虛擬操作系統與交換機連接的至少兩個撥號網絡連接,其中,每個撥號網絡在所述交換機上的對應VLAN號不同,每個虛擬操作系統連接的所述撥號網絡不同,通過所述撥號網絡訪問數據源;S102:獲取客戶端存儲的動態IP池,控制所述虛擬操作系統根據所述動態IP池中的IP串聯訪問所述數據源以進行數據抓取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州索答信息科技有限公司,未經廣州索答信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011485713.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種全自動鎖體端面精銑裝置
- 下一篇:抗靜電可再生塑料顆粒
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





