[發(fā)明專利]一種基于腳本引擎的數(shù)據(jù)采集方法和裝置無效
| 申請?zhí)枺?/td> | 201310019623.9 | 申請日: | 2013-01-18 |
| 公開(公告)號: | CN103092817A | 公開(公告)日: | 2013-05-08 |
| 發(fā)明(設計)人: | 侯賦文 | 申請(專利權)人: | 五八同城信息技術有限公司 |
| 主分類號: | G06F17/20 | 分類號: | G06F17/20 |
| 代理公司: | 工業(yè)和信息化部電子專利中心 11010 | 代理人: | 齊潔茹 |
| 地址: | 300457 天津市濱海新區(qū)第一*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 腳本 引擎 數(shù)據(jù) 采集 方法 裝置 | ||
1.一種基于腳本引擎的數(shù)據(jù)采集方法,其特征在于,包括:
步驟1,加載預先配置的與當前采集任務相對應的采集配置文件,解析該采集配置文件,獲取目標數(shù)據(jù)采集規(guī)則;其中,所述目標數(shù)據(jù)采集規(guī)則包括目標數(shù)據(jù)類型以及采集各類目標數(shù)據(jù)對應的腳本方法名稱和腳本語言;
步驟2,初始化支持不同腳本語言的各腳本引擎,并加載預先配置的由采集目標數(shù)據(jù)的腳本方法構成的腳本文件;
步驟3,下載網(wǎng)頁數(shù)據(jù),并查找定義在該網(wǎng)頁上需要采集的目標數(shù)據(jù)的采集規(guī)則,將下載的網(wǎng)頁數(shù)據(jù)和查找到的采集規(guī)則中配置的腳本方法名稱發(fā)送至相應腳本語言的腳本引擎;
步驟4,腳本引擎根據(jù)所述腳本方法名稱,調(diào)用并執(zhí)行對應的腳本方法,在所述網(wǎng)頁數(shù)據(jù)中采集出目標數(shù)據(jù)。
2.如權利要求1所述的方法,其特征在于,根據(jù)采集任務需求,所述腳本方法中定義有目標數(shù)據(jù)抽取、清洗、加工和轉換規(guī)則。
3.如權利要求2所述的方法,其特征在于,所述目標數(shù)據(jù)抽取規(guī)則包括:按照正則匹配法定義的抽取規(guī)則進行抽取、按照標記截取法定義的抽取規(guī)則進行抽取、按照Xpath抽取法定義的抽取規(guī)則進行抽取、或者按照插件定制法定義的抽取規(guī)則進行抽取。
4.如權利要求2或3所述的方法,其特征在于,所述步驟4中,執(zhí)行對應的腳本方法在網(wǎng)頁數(shù)據(jù)中采集出目標數(shù)據(jù),具體包括:
按照所述腳本方法定義的抽取規(guī)則,在所述網(wǎng)頁數(shù)據(jù)中抽取出指定的目標數(shù)據(jù),以及按照所述腳本方法中定義的清洗、加工和轉換規(guī)則,對抽取得到的目標數(shù)據(jù)進行清洗、加工和轉換操作,得到所需的目標數(shù)據(jù)。
5.如權利要求1所述的方法,其特征在于,所述目標數(shù)據(jù)類型包括:標題、作者、日期、內(nèi)容。
6.一種基于腳本引擎的數(shù)據(jù)采集裝置,其特征在于,包括:
配置解析模塊,用于加載預先配置的與當前采集任務相對應的采集配置文件,解析該采集配置文件,獲取目標數(shù)據(jù)采集規(guī)則;其中,所述目標數(shù)據(jù)采集規(guī)則包括目標數(shù)據(jù)類型以及采集各類目標數(shù)據(jù)對應的腳本方法名稱和腳本語言;
數(shù)據(jù)處理模塊,用于下載網(wǎng)頁數(shù)據(jù),并查找定義在該網(wǎng)頁上需要采集的目標數(shù)據(jù)的采集規(guī)則,將下載的網(wǎng)頁數(shù)據(jù)和查找到的采集規(guī)則中配置的腳本方法名稱,按腳本語言發(fā)送至腳本引擎模塊中相應的腳本引擎中;
腳本引擎模塊,包括支持不同腳本語言的多個腳本引擎,各腳本引擎在初始化后,加載預先配置的由采集目標數(shù)據(jù)的腳本方法構成的腳本文件,以及在接收到數(shù)據(jù)處理模塊發(fā)送的數(shù)據(jù)后,根據(jù)所述腳本方法名稱,調(diào)用并執(zhí)行對應的腳本方法,在所述網(wǎng)頁數(shù)據(jù)中采集出目標數(shù)據(jù)。
7.如權利要求6所述的裝置,其特征在于,根據(jù)采集任務需求,所述腳本引擎模塊加載的腳本文件中的腳本方法中定義有目標數(shù)據(jù)抽取、清洗、加工和轉換規(guī)則。
8.如權利要求7所述的裝置,其特征在于,所述腳本引擎模塊中,所述目標數(shù)據(jù)抽取規(guī)則包括:按照正則匹配法定義的抽取規(guī)則進行抽取、按照標記截取法定義的抽取規(guī)則進行抽取、按照Xpath抽取法定義的抽取規(guī)則進行抽取、或者按照插件定制法定義的抽取規(guī)則進行抽取。
9.如權利要求7或8所述的裝置,其特征在于,所述腳本引擎模塊,具體用于按照所述腳本方法定義的抽取規(guī)則,在所述網(wǎng)頁數(shù)據(jù)中抽取出指定的目標數(shù)據(jù),以及按照所述腳本方法中定義的清洗、加工和轉換規(guī)則,對抽取得到的目標數(shù)據(jù)進行清洗、加工和轉換操作,得到所需的目標數(shù)據(jù)。
10.如權利要求6所述的裝置,其特征在于,所述配置解析模塊中,目標數(shù)據(jù)類型包括:標題、作者、日期、內(nèi)容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五八同城信息技術有限公司,未經(jīng)五八同城信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310019623.9/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





