[發(fā)明專利]一種網(wǎng)絡(luò)資源數(shù)據(jù)采集系統(tǒng)及其實(shí)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201611178759.4 | 申請(qǐng)日: | 2016-12-19 |
| 公開(公告)號(hào): | CN106603292B | 公開(公告)日: | 2019-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 陳德淼;季統(tǒng)凱 | 申請(qǐng)(專利權(quán))人: | 國(guó)云科技股份有限公司 |
| 主分類號(hào): | H04L12/24 | 分類號(hào): | H04L12/24;H04L29/08;G06F16/953;G06F16/958 |
| 代理公司: | 44332 廣東莞信律師事務(wù)所 | 代理人: | 余倫 |
| 地址: | 523808 廣東省東莞市松山湖高*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò)資源 數(shù)據(jù) 采集 系統(tǒng) 及其 實(shí)現(xiàn) 方法 | ||
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)資源數(shù)據(jù)采集的系統(tǒng)及其實(shí)現(xiàn)方法。本發(fā)明的系統(tǒng)由資源配置管理模塊、任務(wù)配置管理模塊和數(shù)據(jù)管理模塊及監(jiān)控管理模塊四部分組成。所述的方法包括如下步驟:在系統(tǒng)數(shù)據(jù)庫(kù)中添加資源信息;配置網(wǎng)絡(luò)采集規(guī)則;對(duì)采集規(guī)則進(jìn)行測(cè)試;發(fā)布資源配置信息;添加任務(wù)信息,選擇資源名稱,設(shè)定任務(wù)運(yùn)行周期及任務(wù)開始運(yùn)行時(shí)間;啟動(dòng)任務(wù)運(yùn)行即可。本發(fā)明可實(shí)現(xiàn)企業(yè)單位工作人員快速創(chuàng)建一個(gè)網(wǎng)絡(luò)數(shù)據(jù)采集資源,靈活配置任務(wù)采集時(shí)間及運(yùn)行周期,對(duì)采集的數(shù)據(jù)進(jìn)行監(jiān)控和查詢,適用于企業(yè)單位各種網(wǎng)絡(luò)資源數(shù)據(jù)采集的實(shí)現(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,特別是涉及一種網(wǎng)絡(luò)資源數(shù)據(jù)采集系統(tǒng)及其實(shí)現(xiàn)方法。
背景技術(shù)
Web是一個(gè)巨大的資源寶庫(kù),目前頁(yè)面數(shù)目已超過(guò)2000億,每小時(shí)還以驚人的速度在穩(wěn)步增長(zhǎng),里面有你需要的大量有價(jià)值的信息,例如政府公告內(nèi)容信息,國(guó)民經(jīng)濟(jì)數(shù)據(jù)信息,金融信息,社交信息,消費(fèi)信息等等,可是由于這些關(guān)鍵信息都是以半結(jié)構(gòu)化或自由文本形式存在于大量的HTML網(wǎng)頁(yè)中,很難直接加以利用,也無(wú)法滿足數(shù)據(jù)的整合和共享。
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問(wèn)題之一在于提供一種網(wǎng)絡(luò)資源數(shù)據(jù)采集系統(tǒng),實(shí)現(xiàn)網(wǎng)絡(luò)資源采集配置管理,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)資源采集內(nèi)容規(guī)則的維護(hù)和管理,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)資源數(shù)據(jù)采集的系統(tǒng)化管理。
本發(fā)明解決的技術(shù)問(wèn)題之二在于提供一種網(wǎng)絡(luò)資源數(shù)據(jù)采集方法,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)數(shù)據(jù)資源的分布式高速采集,多個(gè)任務(wù)同時(shí)運(yùn)行,保證了采集數(shù)據(jù)的準(zhǔn)確性和時(shí)效性。
本發(fā)明解決上述第一個(gè)技術(shù)問(wèn)題的技術(shù)方案是:
所述的系統(tǒng)包含資源配置管理模塊、任務(wù)配置管理模塊和數(shù)據(jù)管理模塊及監(jiān)控管理模塊;
所述的資源配置管理模塊包含資源基礎(chǔ)信息維護(hù)模塊、資源配置信息維護(hù)模塊、資源規(guī)則測(cè)試模塊和資源信息的發(fā)布/撤銷模塊;所述的資源基礎(chǔ)信息維護(hù)模塊用于保存和修改資源基礎(chǔ)信息表,按輸入的資源數(shù)據(jù)表名稱自動(dòng)生成資源采集信息表;所述的資源配置信息維護(hù)模塊用于對(duì)資源信息采集規(guī)則進(jìn)行配置,修改資源基礎(chǔ)信息表;所述的資源規(guī)則測(cè)試模塊用于對(duì)配置的采集規(guī)則進(jìn)行測(cè)試;所述的資源信息的發(fā)布/撤銷模塊用于發(fā)布和撤銷資源信息,發(fā)布資源信息后自動(dòng)生成資源監(jiān)控信息表;
所述的任務(wù)配置管理模塊包含任務(wù)基礎(chǔ)信息維護(hù)和任務(wù)的啟動(dòng)、停止和重啟功能;所述的任務(wù)基礎(chǔ)信息維護(hù)用于保存和修改任務(wù)基礎(chǔ)信息表;所述的任務(wù)的啟動(dòng)、停止和重啟功能分別用于啟動(dòng)任務(wù)、停止任務(wù)和重新啟動(dòng)任務(wù),啟動(dòng)任務(wù)后自動(dòng)生成任務(wù)監(jiān)控信息表;
所述的數(shù)據(jù)管理模塊包含數(shù)據(jù)瀏覽和統(tǒng)一搜索;所述的數(shù)據(jù)瀏覽用于采集數(shù)據(jù)的統(tǒng)一展示,顯示第個(gè)資源的采集信息,包含資源名稱、采集數(shù)據(jù)量和數(shù)據(jù)瀏覽功能;所述的統(tǒng)一搜索用于對(duì)采集內(nèi)容的關(guān)鍵字進(jìn)行檢索,按關(guān)鍵字搜索采集內(nèi)容結(jié)果集信息;
所述的監(jiān)控管理模塊包含資源監(jiān)控管理和任務(wù)監(jiān)控管理;所述的資源監(jiān)控管理用于對(duì)資源信息進(jìn)行監(jiān)控,包含資源名稱、監(jiān)控時(shí)間、監(jiān)控URL、監(jiān)控值、監(jiān)控結(jié)果等信息;所述的任務(wù)監(jiān)控管理用于對(duì)任務(wù)運(yùn)行進(jìn)行監(jiān)控,包含任務(wù)名稱、開始時(shí)間、結(jié)束時(shí)間、采集網(wǎng)頁(yè)數(shù)等信息。
所述的資源基礎(chǔ)信息表,包含:資源編號(hào),資源名稱,數(shù)據(jù)表名稱,關(guān)鍵字,總標(biāo)記,類別,原網(wǎng)頁(yè)名稱,原網(wǎng)頁(yè)URL,標(biāo)題標(biāo)記,鏈接標(biāo)記,日期標(biāo)記,內(nèi)容標(biāo)題標(biāo)記,時(shí)間標(biāo)記,內(nèi)容標(biāo)記,作者標(biāo)記,自定義標(biāo)記,來(lái)源標(biāo)記,備注,數(shù)據(jù)記錄,狀態(tài)信息;
所述的任務(wù)基礎(chǔ)信息表,包含:任務(wù)編號(hào),任務(wù)名稱,資源編號(hào),開始時(shí)間,結(jié)束時(shí)間,是否循環(huán),任務(wù)周期,下次啟動(dòng)時(shí)間,狀態(tài)信息;
所述的資源數(shù)據(jù)采集信息表,包含:資源采集編號(hào),任務(wù)編號(hào),類型,標(biāo)題,時(shí)間,作者,來(lái)源,內(nèi)容標(biāo)題,采集URL,上層URL,內(nèi)容,關(guān)鍵詞,采集時(shí)間,狀態(tài),備注,資源編號(hào);
所述的資源監(jiān)控信息表,包含:資源監(jiān)控編號(hào),資源編號(hào),監(jiān)控URL,監(jiān)控值,監(jiān)控時(shí)間,狀態(tài),備注;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)云科技股份有限公司,未經(jīng)國(guó)云科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611178759.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 用于確定網(wǎng)絡(luò)資源質(zhì)量信息的方法、裝置及設(shè)備
- 一種網(wǎng)絡(luò)資源建模方法和系統(tǒng)
- 網(wǎng)絡(luò)資源的分享及獲取方法、裝置、終端
- 一種網(wǎng)絡(luò)資源調(diào)度方法及網(wǎng)絡(luò)資源管理服務(wù)器
- 一種網(wǎng)絡(luò)資源轉(zhuǎn)移業(yè)務(wù)的處理方法及裝置
- 網(wǎng)絡(luò)資源的編排方法和設(shè)備
- 一種主配網(wǎng)一體化的動(dòng)態(tài)資源分配方法及裝置
- AP網(wǎng)絡(luò)資源分配方法、裝置、設(shè)備、系統(tǒng)及存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)資源參數(shù)配置方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種網(wǎng)絡(luò)資源確定方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





