[發明專利]一種通過爬蟲狀態機管理爬蟲的方法及裝置在審
| 申請號: | 201711105662.5 | 申請日: | 2017-11-10 |
| 公開(公告)號: | CN107943866A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 郭建輝 | 申請(專利權)人: | 天脈聚源(北京)傳媒科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/48 |
| 代理公司: | 北京尚倫律師事務所11477 | 代理人: | 張亮 |
| 地址: | 100007 北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 通過 爬蟲 狀態機 管理 方法 裝置 | ||
技術領域
本發明涉及爬蟲技術領域,特別涉及一種通過爬蟲狀態機管理爬蟲的方法及裝置。
背景技術
爬蟲在完成最終任務的過程中會經歷多個階段。其中,每一個階段需要進行若干個爬蟲任務才可完成該階段。狀態機簡寫為FSM(Finite State Machine),由狀態寄存器和組合邏輯電路構成,能夠根據控制信號按照預先設定的狀態進行狀態轉移,是協調相關信號動作、完成特定操作的控制中心。狀態機主要分為2大類:第一類,若輸出只和狀態有關而與輸入無關,則稱為Moore狀態機;第二類,輸出不僅和狀態有關而且和輸入有關系,則稱為Mealy狀態機。在準確的監控爬蟲的進展情況的方面,現有技術中缺乏妥善的解決方案。如何妥善的處理上述問題,就成為了業界亟待解決的課題。
發明內容
本發明提供一種通過爬蟲狀態機管理爬蟲的方法及裝置,用以使得用戶可直觀的觀測到爬蟲的運行情況,也方便了相關的技術人員針對性的調整爬蟲策略,從而提升了用戶和技術人員的使用體驗。
根據本發明實施例的第一方面,提供一種通過爬蟲狀態機管理爬的方法,包括:
根據預設的爬蟲規則生成爬蟲狀態機;
將爬蟲工作分解為多個階段;
運行所述各個階段的爬蟲工作對應的爬蟲任務;
在當前階段的爬蟲任務結束后,更新所述爬蟲狀態機的當前階段的狀態;
在所述爬蟲狀態機的當前階段滿足預設的完成條件時,運行下一個階段的爬蟲工作對應的爬蟲任務。
在一個實施例中,所述將由爬蟲工作分解為多個階段,包括:
將由所述預設的爬蟲規則生成的爬蟲工作分解為多個階段;
將所述爬蟲工作的多個階段中的各個階段與所述爬蟲狀態機中的各個狀態形成一一映射關系。
在一個實施例中,所述運行所述各個階段的爬蟲工作對應的爬蟲任務,包括:
分析出所述各個階段的爬蟲工作的先后執行順序;
按照所述各個階段的先后執行順序,來運行各個階段對應的爬蟲工作對應的爬蟲任務,所述爬蟲任務的數量至少為一個。
在一個實施例中,所述在當前階段的爬蟲任務結束后,更新所述爬蟲狀態機的當前階段的狀態,包括:
運行與當前階段相應的爬蟲任務來完成當前階段;
在所述當前階段相應的爬蟲任務全部運行完成后,更新當前階段的狀態。
在一個實施例中,所述在所述爬蟲狀態機的當前階段滿足預設的完成條件時,運行下一個階段的爬蟲工作對應的爬蟲任務,包括:
實時檢測更新后的爬蟲狀態機的當前階段的狀態;
若更新后的爬蟲狀態機的當前階段為未完成狀態時,針對所述當前階段再次生成新的爬蟲任務并運行;
當所述爬蟲狀態機的當前階段為完成狀態時,繼續運行下一個階段的爬蟲工作對應的爬蟲任務,直至爬蟲狀態機的所有階段全部為完成狀態。
根據本發明實施例的第二方面,提供一種通過爬蟲狀態機管理爬蟲的裝置,包括:
生成模塊,用于根據預設的爬蟲規則生成爬蟲狀態機;
分解模塊,用于將爬蟲工作分解為多個階段;
運行模塊,用于運行所述各個階段的爬蟲工作對應的爬蟲任務;
更新模塊,用于在當前階段的爬蟲任務結束后,更新所述爬蟲狀態機的當前階段的狀態;
運行模塊,用于在所述爬蟲狀態機的當前階段滿足預設的完成條件時,運行下一個階段的爬蟲工作對應的爬蟲任務。
在一個實施例中,所述分解模塊,包括:
第一生成子模塊,用于將由所述預設的爬蟲規則生成的爬蟲工作分解為多個階段;
映射子模塊,用于將所述爬蟲工作的多個階段中的各個階段與所述爬蟲狀態機中的各個狀態形成一一映射關系。
在一個實施例中,所述運行模塊,包括:
分析子模塊,用于分析出所述各個階段的爬蟲工作的先后執行順序;
第一運行子模塊,用于按照所述各個階段的先后執行順序,來運行各個階段對應的爬蟲工作對應的爬蟲任務,所述爬蟲任務的數量至少為一個。
在一個實施例中,所述更新模塊,包括:
第二運行子模塊,用于運行與當前階段相應的爬蟲任務來完成當前階段;
更新子模塊,用于在所述當前階段相應的爬蟲任務全部運行完成后,更新當前階段的狀態。
在一個實施例中,所述運行模塊,包括:
檢測子模塊,用于實時檢測更新后的爬蟲狀態機的當前階段的狀態;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天脈聚源(北京)傳媒科技有限公司,未經天脈聚源(北京)傳媒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711105662.5/2.html,轉載請聲明來源鉆瓜專利網。





