[發明專利]一種基于腳本的網頁采集服務方法和系統有效
| 申請號: | 201811637869.1 | 申請日: | 2018-12-29 |
| 公開(公告)號: | CN109815387B | 公開(公告)日: | 2021-11-19 |
| 發明(設計)人: | 張凱;程學旗;俞曉明;劉悅;余智華;孫海洲 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 腳本 網頁 采集 服務 方法 系統 | ||
1.一種基于腳本的網頁采集服務方法,包括:設置客戶端,生成采集腳本作為服務請求;設置服務前端,接收并將該服務請求轉發給服務執行單元,該服務執行單元處理該服務請求,并返回處理結果至該客戶端,其特征在于,
該服務執行單元處理該服務請求的過程包括:
步驟1、將服務請求中該采集腳本加入待執行的腳本隊列;
步驟2、根據該腳本隊列中采集腳本的順序,調度該腳本隊列中位于隊首的采集腳本作為執行腳本;
步驟3、解釋執行該執行腳本,當該執行腳本執行到調用函數時,判斷該調用函數是否為采集函數,若是,則執行步驟4,否則執行步驟5;
步驟4、將采集網頁的任務發給網頁采集模塊,對該執行腳本指定的網址進行網頁采集處理,得到該網址的網頁信息作為該采集函數的返回值,執行步驟6;
步驟5、執行該調用函數調用的功能,并將執行結果作為該調用函數的返回值,執行步驟6;
步驟6、返回該步驟3繼續解釋執行該執行腳本,直到該執行腳本執行完畢,得到該執行腳本的執行結果;
該步驟4還包括:對該執行腳本進行網頁采集處理時,掛起該執行腳本形成掛起腳本,同時保存該掛起腳本的執行狀態,調度該腳本隊列中位于隊首的采集腳本作為執行腳本執行該步驟3,直到該掛起腳本的網頁采集處理完成,恢復該掛起腳本形成恢復腳本,并將該恢復腳本作為采集腳本重新插入該腳本隊列的隊尾等待執行。
2.如權利要求1所述的基于腳本的網頁采集服務方法,其特征在于,該步驟3包括:判斷該執行腳本是否為恢復腳本,若是則讀取該恢復腳本的執行狀態,繼續解釋執行該恢復腳本。
3.如權利要求1-2所述的任意一種基于腳本的網頁采集服務方法,其特征在于,步驟5中所調用的功能包括:網頁抽取、正則匹配、字符串處理和/或字符集轉換。
4.如權利要求1-2所述的任意一種基于腳本的網頁采集服務方法,其特征在于,該腳本隊列包括基于腳本語言編寫的采集腳本,該腳本語言為lua語言。
5.一種基于腳本的網頁采集服務系統,包括:客戶端,生成采集腳本作為服務請求;服務前端,接收并將該服務請求轉發給服務執行單元,該服務執行單元處理該服務請求,并返回處理結果至該客戶端,其特征在于,
該服務執行單元包括:
模塊1、將服務請求中該采集腳本加入待執行的腳本隊列;
模塊2、根據該腳本隊列中采集腳本的順序,調度該腳本隊列中位于隊首的采集腳本作為執行腳本;
模塊3、解釋執行該執行腳本,當該執行腳本執行到調用函數時,判斷該調用函數是否為采集函數,若是,則執行模塊4,否則執行模塊5;
模塊4、將采集網頁的任務發給網頁采集模塊,對該執行腳本指定的網址進行網頁采集處理,得到該網址的網頁信息作為該采集函數的返回值,執行模塊6;
模塊5、執行該調用函數調用的功能,并將執行結果作為該調用函數的返回值,執行模塊6;
模塊6、返回該模塊3繼續解釋執行該執行腳本,直到該執行腳本執行完畢,得到該執行腳本的執行結果;
該模塊4還包括:對該執行腳本進行網頁采集處理時,掛起該執行腳本形成掛起腳本,同時保存該掛起腳本的執行狀態,調度該腳本隊列中位于隊首的采集腳本作為執行腳本執行該模塊3,直到該掛起腳本的網頁采集處理完成,恢復該掛起腳本形成恢復腳本,并將該恢復腳本作為采集腳本重新插入該腳本隊列的隊尾等待執行。
6.如權利要求5所述的基于腳本的網頁采集服務系統,其特征在于,該模塊3包括:判斷該執行腳本是否為恢復腳本,若是則讀取該恢復腳本的執行狀態,繼續解釋執行該恢復腳本。
7.如權利要求5-6所述的任意一種基于腳本的網頁采集服務系統,其特征在于,模塊5中所調用的功能包括:網頁抽取、正則匹配、字符串處理和/或字符集轉換。
8.如權利要求5-6所述的任意一種基于腳本的網頁采集服務系統,其特征在于,該腳本隊列包括基于腳本語言編寫的采集腳本,該腳本語言為lua語言。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811637869.1/1.html,轉載請聲明來源鉆瓜專利網。





