[發(fā)明專利]一種基于腳本的網(wǎng)頁采集服務(wù)方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201811637869.1 | 申請日: | 2018-12-29 |
| 公開(公告)號(hào): | CN109815387B | 公開(公告)日: | 2021-11-19 |
| 發(fā)明(設(shè)計(jì))人: | 張凱;程學(xué)旗;俞曉明;劉悅;余智華;孫海洲 | 申請(專利權(quán))人: | 中國科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F16/953 | 分類號(hào): | G06F16/953 |
| 代理公司: | 北京律誠同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 腳本 網(wǎng)頁 采集 服務(wù) 方法 系統(tǒng) | ||
本發(fā)明涉及一種基于腳本的網(wǎng)頁采集服務(wù)方法和系統(tǒng),包括:客戶端,服務(wù)前端和服務(wù)執(zhí)行單元,服務(wù)執(zhí)行單元處理服務(wù)請求的過程包括:根據(jù)腳本隊(duì)列中采集腳本的順序,調(diào)度腳本隊(duì)列中位于隊(duì)首的采集腳本作為執(zhí)行腳本;解釋執(zhí)行執(zhí)行腳本,當(dāng)執(zhí)行腳本執(zhí)行到調(diào)用函數(shù)時(shí),判斷調(diào)用函數(shù)是否為采集函數(shù),若是,則將采集網(wǎng)頁的任務(wù)發(fā)給網(wǎng)頁采集模塊,對執(zhí)行腳本指定的網(wǎng)址進(jìn)行網(wǎng)頁采集處理,得到網(wǎng)址的網(wǎng)頁信息作為采集函數(shù)的返回值,否則執(zhí)行調(diào)用函數(shù)調(diào)用的功能,并將執(zhí)行結(jié)果作為調(diào)用函數(shù)的返回值。由此本發(fā)明可通過調(diào)用服務(wù)的方式處理復(fù)雜的網(wǎng)頁采集任務(wù),適應(yīng)性更強(qiáng)。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)采集領(lǐng)域,特別涉及一種基于腳本的網(wǎng)頁采集服務(wù)方法和系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)的不斷發(fā)展和演化,出現(xiàn)了各種新聞、論壇、微博等各種各樣的網(wǎng)站,滿足了人們各種不同的需求。出于搜索、監(jiān)管等多方面需求,需要將其中的主要數(shù)據(jù)采集下來。例如:
1.新聞的數(shù)據(jù):如新聞的標(biāo)題、正文和發(fā)布時(shí)間等;
2.新聞評論的數(shù)據(jù):如新聞評論的正文、作者和發(fā)布時(shí)間等;
3.論壇帖子及其跟帖的數(shù)據(jù):如作者,版面,正文和發(fā)布時(shí)間等。
因此每個(gè)網(wǎng)站某種數(shù)據(jù)的采集功能一般包括采集網(wǎng)頁和抽取兩種功能,此外還有字符集轉(zhuǎn)換等外圍功能。
針對以上的采集需求,以往研發(fā)者提出了各種方法進(jìn)行采集,在開發(fā)過程中會(huì)總結(jié)網(wǎng)站的規(guī)律,并根據(jù)規(guī)律對某種網(wǎng)站開發(fā)一套專用的采集程序,該采集程序使用一套統(tǒng)一的處理流程來完成采集。
如上方法可以解決常見問題,但在采集和抽取過程中,由于網(wǎng)站的多樣性,如果采用這樣的統(tǒng)一的處理流程會(huì)有一些弊端:
1.各個(gè)網(wǎng)站、各種數(shù)據(jù)的采集和抽取流程不同,尤其對于新聞評論的這種較復(fù)雜的采集,各個(gè)網(wǎng)站的采集方法有很大的不同;
2.例外網(wǎng)站的問題。如果某類網(wǎng)站的大部分采集需求都可以通過某個(gè)采集抽取流程來處理,但對于新出現(xiàn)的網(wǎng)站,有可能不能納入到該流程中,需要修改流程來處理,這種方式會(huì)導(dǎo)致程序的復(fù)雜度提高,難以維護(hù),而且還不能保證后續(xù)的采集需求得到滿足。
3.開發(fā)速度。如果采用單獨(dú)開發(fā)的方式解決這種需求,會(huì)導(dǎo)致開發(fā)速度的下降和維護(hù)成本的增加。
現(xiàn)有技術(shù)中方法大多是針對固定的采集流程設(shè)計(jì)的,比如采集新聞,一般要經(jīng)歷4個(gè)步驟:
1.采集板塊頁面;
2.抽取出新聞鏈接;
3.采集新聞網(wǎng)頁;
4.抽取出相應(yīng)數(shù)據(jù)。
這樣存在的問題包括:
1.如果某類網(wǎng)站數(shù)據(jù)(例如新聞評論)沒有固定的采集流程,就不能采用該程序采集。
2.即使某類網(wǎng)站大多數(shù)網(wǎng)站都存在著某種流程,還是不能保證未來不出現(xiàn)例外的情況和特殊的版面。
3.如果采用單獨(dú)開發(fā)的方式來解決,會(huì)導(dǎo)致開發(fā)速度的下降。
發(fā)明內(nèi)容
本發(fā)明的主要目的是為了解決如上問題,提出基于腳本的采集服務(wù)的方法。
具體地說,本發(fā)明公開了一種基于腳本的網(wǎng)頁采集服務(wù)方法,包括:設(shè)置客戶端,生成采集腳本作為服務(wù)請求;設(shè)置服務(wù)前端,接收并將該服務(wù)請求轉(zhuǎn)發(fā)給服務(wù)執(zhí)行單元,該服務(wù)執(zhí)行單元處理該服務(wù)請求,并返回處理結(jié)果至該客戶端,其中
該服務(wù)執(zhí)行單元處理該服務(wù)請求的過程包括:
步驟1、將服務(wù)請求中該采集腳本加入待執(zhí)行的腳本隊(duì)列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811637869.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 腳本處理方法及裝置
- 一種實(shí)現(xiàn)腳本引擎的系統(tǒng)及方法
- 代理自動(dòng)配置腳本的處理方法及代理自動(dòng)配置腳本服務(wù)器
- 一種腳本執(zhí)行方法、裝置及計(jì)算設(shè)備
- 腳本轉(zhuǎn)換方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 性能測試平臺(tái)腳本存儲(chǔ)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)現(xiàn)測試腳本驗(yàn)證的方法及系統(tǒng)
- 結(jié)構(gòu)化查詢語言腳本審查方法及相關(guān)設(shè)備
- 基于FitNesse框架的數(shù)據(jù)驅(qū)動(dòng)腳本庫的方法、系統(tǒng)及介質(zhì)
- 一種腳本審計(jì)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





