[發明專利]一種面向網頁采集任務的插件管理方法及其裝置有效
| 申請號: | 201410004005.1 | 申請日: | 2014-01-03 |
| 公開(公告)號: | CN104765592B | 公開(公告)日: | 2018-09-18 |
| 發明(設計)人: | 彭威;楊長龍;唐新民;沈智杰;景曉軍 | 申請(專利權)人: | 任子行網絡技術股份有限公司 |
| 主分類號: | G06F9/445 | 分類號: | G06F9/445 |
| 代理公司: | 深圳市順天達專利商標代理有限公司 44217 | 代理人: | 郭偉剛 |
| 地址: | 518057 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網頁 采集 任務 插件 管理 方法 及其 裝置 | ||
本發明公開了一種面向網頁采集任務的插件管理方法及其裝置,該方法包括以下步驟:在一網頁內選中任意的網頁內容,根據所述網頁內容生成與所述網頁內容對應的抽取規則,同時,根據所述抽取規則生成與所述抽取規則對應的插件;對所述插件進行測試,當所述插件通過測試后,加載所述插件完成網頁內容的采集操作,同時,管理所述插件的使用權限,并對所述插件采取相應的維護操作。實施本發明,通過結合Java腳本語言優勢,以及現有的版本控制服務器,提高插件的開發效率,實現插件的自動化管理,從而大大降低插件開發和插件維護的成本。同時,在插件開發時,無需重啟程序即可以支持插件的動態重復加載,在插件管理時,管理操作更為安全、便捷。
技術領域
本發明涉及計算機互聯網領域,尤其涉及一種面向網頁采集任務的插件管理方法及其裝置。
背景技術
在現有技術中,定向采集系統是網絡蜘蛛的一種,它是網絡數據獲取系統的核心部分。它通過對互聯網上已知信息(即網絡鏈接,URL:Universal Resource Locator)的不斷抓取海量網頁內容,獲取其中所有主題相關內容。
目前,常見的網頁采集方法有兩種:
一種是設置起始的URL,采集系統就自動地按照網站結構的層次來設置URL的優先級,并按照這個級別進行網頁的抓取。另外一種偏向于個性化采集,需要根據配置的抽取規則,來提取和主題相關的內容。
對于第二種,網頁定制化采集需要維護大量的抽取規則。簡單的網頁,可以通過通用的抽取規則進行匹配,如正則表達式等,但是對于復雜網頁,則需要額外的規則邏輯來處理,而這部分需進行代碼開發。開發的代碼以插件的形式存在,通過編譯、打包等,動態更新到線上的采集系統中去。
Java是一種最常見的爬蟲插件開發語言,但是Java虛擬機不支持運行時類的動態重復加載機制,所以在基于Java語言開發的插件維護時需要編譯、打包、重啟Java虛擬機等操作,工作繁瑣,出錯幾率高。
另外,插件的版本控制也比較繁瑣,需要記錄每個插件的版本號,在插件維護過程容易出錯。
從上面的問題我們可以看出,現有的插件開發體系已經不能滿足日益發展的互聯網采集技術的需求,需要尋找一種高效、便捷的插件開發以及插件管理模式。
發明內容
針對現有技術中,基于Java語言開發插件時,維護工作需要進行編譯、打包、重啟Java虛擬機等操作,工作繁瑣,出錯幾率高,同時,插件的版本控制也比較繁瑣,需要記錄每個插件的版本號,在插件維護過程容易出錯的缺陷,本發明提出了一種面向網頁采集任務的插件管理方法及其裝置。
本發明解決現有技術問題所采用的技術方案是構造一種面向網頁采集任務的插件管理方法,該方法包括以下步驟:
S1,在一網頁內選中任意的網頁內容,根據所述網頁內容生成與所述網頁內容對應的抽取規則,同時,根據所述抽取規則生成與所述抽取規則對應的插件;
S2,對所述插件進行測試,當所述插件通過測試后,加載所述插件完成網頁內容的采集操作,同時,管理所述插件的使用權限,并對所述插件采取相應的維護操作。
所述步驟S1具體包括以下子步驟:
S11,輸入網絡鏈接地址,下載與所述網絡鏈接地址對應的網頁界面;
S12,將所述網頁界面解析為相應的文檔對象結構;
S13,分析所述文檔對象結構,并根據所述選中的網頁內容生成對應的Java腳本抽取規則;
S14,根據所述Java腳本抽取規則生成Java腳本插件,并選擇Java腳本插件的配置模式,所述配置模式包括,選擇上傳所述Java腳本插件、在所述網頁界面內錄入所述抽取規則、在所述網頁界面內編寫所述Java腳本插件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于任子行網絡技術股份有限公司,未經任子行網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410004005.1/2.html,轉載請聲明來源鉆瓜專利網。





