[發明專利]一種可配置化的數據抓取方法和裝置在審
| 申請號: | 201910446581.4 | 申請日: | 2019-05-27 |
| 公開(公告)號: | CN110188259A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 邱濤;丘水文;陳成樂 | 申請(專利權)人: | 廈門商集網絡科技有限責任公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 福州科揚專利事務所 35001 | 代理人: | 何小星 |
| 地址: | 361101 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 目標網站 頁面配置 基本信息 數據抓取 可配置 登陸 方法和裝置 登錄賬號 調度管理 后綴類型 頁面編碼 用戶編碼 用戶類型 用戶配置 站點類型 站點配置 配置 站點 服務 | ||
本發明涉及一種可配置化的數據抓取方法,包括以下步驟:確定需要抓取的目標網站,并在站點配置頁面配置所述目標網站的基本信息,包括站點類型、站點名稱、目標編號、頁面編碼格式;在用戶配置頁面配置可以登陸所述目標網站的用戶的基本信息,包括用戶類型、登錄賬號/密碼、用戶編碼、用戶名稱;在抓取URL配置頁面配置爬取登陸和抓取數據的URL基本信息,包括URL名稱、請求時的URL地址、上級URL、URL類型、請求方式、URL后綴類型;在調度管理頁面配置抓取服務發起的時間;生成一抓取作業,根據上述各個配置好的信息,從所述目標網站上抓取數據。
技術領域
本發明涉及一種可配置化的數據抓取方法和裝置,屬于數據采集技術領域。
背景技術
目前可實現數據抓取的方法很多,有開源的代碼,也有商用的直接提供服務的工具,但是這些基本都是針對不同的目標網站上,根據網站特點硬編碼實現的,這樣的實現具有一定的局限性,一旦所要抓取的范圍變大,或者目標網站發生變更,唯一的解決問題的方法就是修改前面實現的編碼。這樣就造成了一定的資源浪費,并且影響實現周期,靈活度不夠,也受限于實現的人員技能。
發明內容
為了解決上述現有技術中存在的問題,本發明提供一種可配置化的數據抓取方法,可以有效的解決多網站的抓取,甚至是面對網站變更的情況,也可以通過修改配置而完成配套變更,縮短工期,并且普通的實施人員也能完成。
本發明的技術方案如下:
技術方案一
一種可配置化的數據抓取方法,包括以下步驟:
確定需要抓取的目標網站,并在站點配置頁面配置所述目標網站的基本信息,包括站點類型、站點名稱、目標編號、頁面編碼格式;
在用戶配置頁面配置可以登陸所述目標網站的用戶的基本信息,包括用戶類型、登錄賬號/密碼、用戶編碼、用戶名稱;
在抓取URL配置頁面配置爬取登陸和抓取數據的URL基本信息,包括URL名稱、請求時的URL地址、上級URL、URL類型、請求方式、URL后綴類型;
在調度管理頁面配置抓取服務發起的時間;
生成一抓取作業,從所述目標網站上抓取數據,具體步驟如下:
根據所述抓取服務發起的時間,開始執行作業;
根據所述目標網站的基本信息,打開所述目標網站;
根據所述目標網站的用戶的基本信息,輸入登陸賬號/密碼,登陸所述目標網站;
根據所述URL的基本信息,打開抓取數據的URL,在所述目標網站上執行固定操作并抓取網頁內容。
進一步的,判斷所述目標網站是否有驗證碼登陸步驟,如有驗證碼登陸步驟,則在驗證碼輸入配置頁面配置驗證碼輸入的基本信息,包括驗證碼圖片類型、驗證碼圖片語言、驗證碼圖片字數和驗證碼大小寫;如無驗證碼登陸步驟,則跳過驗證碼輸入配置;
如目標網站有驗證碼登陸步驟,則抓取所述目標網站中的驗證碼圖片,根據所述驗證碼輸入的基本信息識別驗證碼圖片進行登錄目標網站,具體步驟如下:
利用網絡爬蟲從所述目標網站中爬取驗證碼圖片;
利用OCR技術,根據所述驗證碼輸入的基本信息,對所述驗證碼圖片進行自動識別,得到所述驗證碼圖片中的驗證碼信息;并將所述驗證碼信息填入驗證碼輸入框內并提交,進行登陸;
如登陸失敗,則轉為人工識別驗證碼圖片,并在驗證碼輸入框中輸入驗證碼,進行登陸。
進一步的,還包括一用戶密碼校驗步驟,具體如下:
選擇要校驗的一個或以上用戶,點擊進行校驗;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門商集網絡科技有限責任公司,未經廈門商集網絡科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910446581.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用爬蟲獲取外部數據的方法及裝置
- 下一篇:一種IT基礎硬件知識系統





