[發明專利]一種面向網頁采集任務的插件管理方法及其裝置有效
| 申請號: | 201410004005.1 | 申請日: | 2014-01-03 |
| 公開(公告)號: | CN104765592B | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 彭威;楊長龍;唐新民;沈智杰;景曉軍 | 申請(專利權)人: | 任子行網絡技術股份有限公司 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 郭偉剛 |
| 地址: | 518057 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網頁 采集 任務 插件 管理 方法 及其 裝置 | ||
1.一種面向網頁采集任務的插件管理方法,其特征在于,所述方法包括以下步驟:
S1,在一網頁內選中任意的網頁內容,根據所述網頁內容生成與所述網頁內容對應的抽取規則,同時,根據所述抽取規則生成與所述抽取規則對應的插件;
S2,對所述插件進行測試,當所述插件通過測試后,加載所述插件完成網頁內容的采集操作,同時,管理所述插件的使用權限,并對所述插件采取相應的維護操作;
S3,爬蟲控制節點向插件管理中心發送插件下載請求;
S4,所述插件管理中心獲取調用所述爬蟲控制節點接口的用戶的身份信息;
S5,所述插件管理中心驗證所述身份信息,當所述身份信息通過驗證時,所述插件管理中心通過所述下載請求;
S6,根據所述下載請求內包含的插件版本信息,版本控制服務器選擇相應版本的插件以供下載;
S7,所述爬蟲控制節點動態加載所述插件,并開始在所述網頁內容內采集所需信息;
其中,所述步驟S1具體包括以下子步驟:
S11,輸入網絡鏈接地址,下載與所述網絡鏈接地址對應的網頁界面;
S12,將所述網頁界面解析為相應的文檔對象結構;
S13,分析所述文檔對象結構,并根據所述選中的網頁內容生成對應的Java腳本抽取規則;
S14,根據所述Java腳本抽取規則生成Java腳本插件,并選擇Java腳本插件的配置模式,所述配置模式包括,選擇上傳所述Java腳本插件、在所述網頁界面內錄入所述抽取規則、在所述網頁界面內編寫所述Java腳本插件;
S15,將所述Java腳本抽取規則或者所述Java腳本插件發送到插件管理中心;
所述步驟S2具體包括以下子步驟:
S21,根據用戶提供的身份信息對用戶的身份進行權限校驗;
S22,當用戶的身份校驗成功后,獲取與用戶對應的權限信息,并根據所述權限信息向用戶提供插件下載、插件上傳、或者插件查詢的操作權限;
S23,當爬蟲控制節點獲取到所述插件時,在正常工作狀態下,重復動態加載所述插件。
2.根據權利要求1所述的面向網頁采集任務的插件管理方法,其特征在于,所述步驟S1還包括以下子步驟:
S15,選擇要進行測試的插件;
S16,輸入用于測試所述插件的網絡鏈接地址;
S17,選擇測試模式,其中,所述測試模式包括單元測試以及集成測試;
S18,獲取測試結果,并分析處理所述測試的結果。
3.根據權利要求1所述的面向網頁采集任務的插件管理方法,其特征在于,所述步驟S2還包括以下子步驟:
S24,判斷用戶的操作模式,所述操作模式包括:刪除所述插件、增加所述插件、下載所述插件以及修改所述插件;
S25,根據所述操作模式以及所述插件的版本信息,對所述插件進行維護,同時,根據用戶需求對所述插件進行相應的維護操作。
4.一種基于權利要求1所述方法的面向網頁采集任務的插件管理裝置,其特征在于,所述裝置包括:插件開發模塊以及插件管理中心,其中,所述插件開發模塊包括用于對網頁內容進行分析的網頁分析器、用于插件進行相關配置的插件配置客戶端以及用于對所述插件進行測試的插件測試客戶端;
所述插件管理中心包括用于向用戶提供所述插件的下載、上傳、查詢服務端插件服務模塊以及對插件版本進行控制的版本控制模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于任子行網絡技術股份有限公司,未經任子行網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410004005.1/1.html,轉載請聲明來源鉆瓜專利網。





