[發明專利]自定義數據采集系統及方法在審
| 申請號: | 201911197455.6 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110955414A | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 田丹;田俊豪;銀虹宇;李奇宇 | 申請(專利權)人: | 電子科技大學;成都精準云教育科技有限公司 |
| 主分類號: | G06F8/20 | 分類號: | G06F8/20;G06F8/34;G06F16/951 |
| 代理公司: | 成都科海專利事務有限責任公司 51202 | 代理人: | 李俊 |
| 地址: | 611731 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自定義 數據 采集 系統 方法 | ||
1.一種自定義數據采集系統,其特征在于,包括:任務生成模塊和數據采集模塊;
所述任務生成模塊,用于為用戶提供可視化交互界面,以便用戶通過所述可視化交互界面自定義爬蟲任務腳本;
所述數據采集模塊用于采用Web應用程序的自動化測試工具Selenium、基于所述爬蟲任務腳本進行數據采集,以及進行數據存儲。
2.根據權利要求1所述的系統,其特征在于,所述任務生成模塊為基于QT框架實現的嵌入式瀏覽器,所述嵌入式瀏覽器用于記錄用戶網頁操作、獲取元素定位信息以及智能識別網頁相似元素。
3.根據權利要求2所述的系統,其特征在于,所述數據采集模塊包括任務解析子模塊和數據持久化子模塊,所述任務解析子模塊用于對所述爬蟲任務腳本進行解析,以及基于解析后的爬蟲任務腳本進行數據采集;所述數據持久化子模塊用于將采集的數據存入數據庫。
4.根據權利要求3所述的系統,其特征在于,所述任務生成模塊包括預設的數據結構;所述數據結構用于存儲預設的基本動作,以及存儲由所述基本動作組成的爬蟲任務;其中,所述基本動作為預先定義的、用戶能夠對所述嵌入式瀏覽器進行的操作動作。
5.根據權利要求4所述的系統,其特征在于,所述基本動作包括:1.打開網頁,2.點擊元素,3.提取數據,4.輸入文本,5.識別驗證碼,6.切換下拉框,7.鼠標移到元素上,8.循環,9.判斷條件,10.條件分支,11.結束循環,12.結束流程。
6.根據權利要求5所述的系統,其特征在于,所述任務解析子模塊包括初始化單元和動作單元;所述初始化單元用于基于Selenium WebDriver工具創建瀏覽器對象和數據管道對象;所述動作單元用于根據所述12種基本動作,對Selenium WebDriver工具提供的相應的應用程序接口API進行封裝。
7.根據權利要求6所述的系統,其特征在于,所述任務解析子模塊對外用于提供接收描述所述數據結構中的所述基本動作的參數,對內用于結合所述數據結構,對用戶創建的動作進行解析,以及通過所述瀏覽器對象調用Selenium WebDriver的應用程序接口API,實現對瀏覽器及網頁的操作。
8.根據權利要求7所述的系統,其特征在于,所述任務解析子模塊對內還用于若在解析中發現有嵌套的子動作,將該子動作的動作描述以參數的形式傳給對應的操作方法;所述嵌套的子動作為在可嵌套動作下嵌套的任一種所述基本動作;其中所述12種基本動作中的循環、判斷條件和條件分支為可嵌套動作。
9.根據權利要求8所述的系統,其特征在于,所述12種基本動作中的判斷條件下嵌套的子動作只能為條件分支。
10.一種基于權利要求1-9任一項所述系統的自定義數據采集方法,其特征在于,包括:
獲取用戶通過可視化交互界面自定義的爬蟲任務腳本;
對所述爬蟲任務腳本進行解析,基于解析后的爬蟲任務腳本進行數據采集;
將采集的數據進行過濾和處理,存儲于數據庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學;成都精準云教育科技有限公司,未經電子科技大學;成都精準云教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911197455.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種行走機構及機器人
- 下一篇:中壓開關無源脫扣裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





