[發(fā)明專利]一種基于分布式的一站式采集方法及采集系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010960596.5 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112100495A | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計(jì))人: | 李釗;孫露;孫浩;楊春;魏靜;胡傳會;陳通 | 申請(專利權(quán))人: | 山東億云信息技術(shù)有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955;G06K9/62;G06F9/48 |
| 代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250014 山東省濟(jì)南市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分布式 一站式 采集 方法 系統(tǒng) | ||
1.一種基于分布式的一站式采集方法,其特征是,包括:
分布式采集集群構(gòu)建:將集群服務(wù)器添加到采集集群中,并添加采集應(yīng)用至集群服務(wù)器中;
全網(wǎng)采集:集群服務(wù)器接收所需采集的網(wǎng)站,進(jìn)行全網(wǎng)數(shù)據(jù)采集,并對網(wǎng)站中的列表頁數(shù)據(jù)進(jìn)行過濾;
解析:對過濾后的列表頁進(jìn)行解析,獲取列表頁網(wǎng)站規(guī)則以及列表頁中詳情頁的規(guī)則;
采集任務(wù)配置:配置增量采集和全量采集所需的采集應(yīng)用,然后啟動增量采集和全量采集。
2.如權(quán)利要求1所述的一種基于分布式的一站式采集方法,其特征是,調(diào)用人工智能算法模型對列表頁規(guī)則和詳情頁規(guī)則進(jìn)行智能解析,人工智能算法模型包括列表規(guī)則解析模型和詳情頁規(guī)則解析模型,通過列表規(guī)則解析模型獲取列表頁中標(biāo)題、發(fā)文時(shí)間的xpath規(guī)則,通過詳情頁規(guī)則解析模型獲取內(nèi)容詳情頁的xpath規(guī)則,通過這兩個(gè)模型代替人工手動點(diǎn)選獲取xpath規(guī)則。
3.如權(quán)利要求1所述的一種基于分布式的一站式采集方法,其特征是,所述將集群服務(wù)器添加到采集集群中:通過輸入服務(wù)器IP、服務(wù)器用戶名和密碼可將服務(wù)器添加到采集集群中,實(shí)現(xiàn)一鍵擴(kuò)容。
4.如權(quán)利要求1所述的一種基于分布式的一站式采集方法,其特征是,添加采集應(yīng)用至集群服務(wù)器中時(shí),可自定義啟動的應(yīng)用數(shù)量。
5.如權(quán)利要求4所述的一種基于分布式的一站式采集方法,其特征是,應(yīng)用管理中可自定義啟動的應(yīng)用數(shù)量,采集任務(wù)結(jié)束后自動釋放資源。
6.如權(quán)利要求4所述的一種基于分布式的一站式采集方法,其特征是,”所述增量采集:每日采集新增的數(shù)據(jù),所述全量采集:采集現(xiàn)有的全部數(shù)據(jù)。
7.一種基于分布式的一站式采集系統(tǒng),其特征是,包括:
分布式采集集群構(gòu)建模塊,被配置為:將集群服務(wù)器添加到采集集群中,并添加采集應(yīng)用至集群服務(wù)器中;
全網(wǎng)采集模塊,被配置為:集群服務(wù)器接收所需采集的網(wǎng)站,進(jìn)行全網(wǎng)數(shù)據(jù)采集,并對網(wǎng)站中的列表頁數(shù)據(jù)進(jìn)行過濾;
解析模塊,被配置為:對過濾后的列表頁進(jìn)行解析,獲取列表頁網(wǎng)站規(guī)則以及列表頁中詳情頁的規(guī)則;
采集任務(wù)配置模塊,被配置為:配置增量采集和全量采集所需的采集應(yīng)用,然后啟動增量采集和全量采集。
8.一種采集系統(tǒng),其特征是,包括:
集群監(jiān)控管理平臺、任務(wù)調(diào)度管理平臺及數(shù)據(jù)采集平臺;
所述集群監(jiān)控管理平臺被配置為:將集群服務(wù)器添加到采集集群中,并添加采集應(yīng)用至集群服務(wù)器中;
所述任務(wù)調(diào)度管理平臺分別發(fā)送調(diào)度信息至集群監(jiān)控管理平臺及數(shù)據(jù)采集平臺,進(jìn)行任務(wù)調(diào)度;
所述數(shù)據(jù)采集平臺被配置為:對過濾后的列表頁進(jìn)行解析,獲取列表頁網(wǎng)站規(guī)則以及列表頁中詳情頁的規(guī)則;
配置增量采集和全量采集所需的采集應(yīng)用,然后啟動增量采集和全量采集。
9.一種計(jì)算裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征是,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)權(quán)利要求1-6任一所述的方法中的具體步驟。
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征是,該程序被處理器執(zhí)行時(shí)執(zhí)行權(quán)利要求1-6任一所述的方法中的具體步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東億云信息技術(shù)有限公司,未經(jīng)山東億云信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010960596.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





