[發明專利]資源庫中的資源采集方法和裝置在審
| 申請號: | 201611032326.8 | 申請日: | 2016-11-22 |
| 公開(公告)號: | CN108090071A | 公開(公告)日: | 2018-05-29 |
| 發明(設計)人: | 侯勝濤 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 楊澤;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 引擎 資源庫 采集 采集信息 方法和裝置 網頁采集 網頁資源 資源采集 預設策略 配置 創建 應用 | ||
1.一種資源庫中的資源采集方法,其特征在于,包括:
配置至少一種采集引擎和對應的采集信息;
創建所述采集引擎,并控制所述采集引擎根據對應的采集信息對資源進行采集;
其中,所述采集引擎包括:網頁采集引擎,相應的,所述網頁采集引擎對應的采集信息為網頁資源采集信息;
控制所述采集引擎按照預設策略將所述采集的對應的資源存入到資源庫中。
2.根據權利要求1所述的方法,其特征在于,所述控制所述采集引擎根據對應的采集信息對資源進行采集之后,還包括:
接收所述采集引擎發送的采集狀態信息;
根據所述采集狀態信息判斷是否終止采集;
若根據所述采集狀態信息確定終止采集,則控制所述采集引擎終止采集。
3.根據權利要求2所述的方法,其特征在于,若所述采集引擎為網頁采集引擎,則所述控制所述采集引擎根據對應的采集信息對資源進行采集,具體包括:
控制所述采集引擎抓取內網或外網的網頁資源;
對所述內網或外網的網頁資源進行解析,獲取與采集信息相匹配的網頁資源。
4.根據權利要求1-3中任一項所述的方法,其特征在于,所述采集引擎還包括:文件采集引擎和數據庫采集引擎;
相應的,所述文件采集引擎對應的采集信息為文件資源采集信息;所述數據庫采集引擎對應的采集信息為數據庫資源采集信息。
5.一種資源庫中的資源采集裝置,其特征在于,包括:
配置模塊,用于配置至少一種采集引擎和對應的采集信息;
創建模塊,用于創建所述采集引擎;
控制模塊,用于控制所述采集引擎根據對應的采集信息對資源進行采集;
其中,所述采集引擎包括:網頁采集引擎,相應的,所述網頁采集引擎對應的采集信息為網頁資源采集信息;
所述控制模塊,還用于控制所述采集引擎按照預設策略將所述采集的對應的資源存入到資源庫中。
6.根據權利要求5所述的裝置,其特征在于,還包括:
接收模塊,用于接收所述采集引擎發送的采集狀態信息;
判斷模塊,用于根據所述采集狀態信息判斷是否終止采集;
若根據所述采集狀態信息確定終止采集,則所述控制模塊,還用于控制所述采集引擎終止采集。
7.根據權利要求6所述的裝置,其特征在于,若所述采集引擎為網頁采集引擎,則控制模塊,具體用于:
控制所述采集引擎抓取內網或外網的網頁資源;對所述內網或外網的網頁資源進行解析,獲取與采集信息相匹配的網頁資源。
8.根據權利要求5-7中任一項所述的裝置,其特征在于,所述采集引擎還包括:文件采集引擎和數據庫采集引擎;
相應的,所述文件采集引擎對應的采集信息為文件資源采集信息;所述數據庫采集引擎對應的采集信息為數據庫資源采集信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611032326.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中文實體屬性抽取方法
- 下一篇:一種用于圖文信息的分鐘級監測系統





