[發(fā)明專利]一種網(wǎng)頁數(shù)據(jù)分布式模板采集方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810319851.0 | 申請日: | 2018-04-11 |
| 公開(公告)號: | CN108763279B | 公開(公告)日: | 2020-12-15 |
| 發(fā)明(設(shè)計)人: | 方省;王海亮;皇秋曼;王磊;羅引 | 申請(專利權(quán))人: | 北京中科聞歌科技股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京華夏泰和知識產(chǎn)權(quán)代理有限公司 11662 | 代理人: | 陳英 |
| 地址: | 100028 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)頁 數(shù)據(jù) 分布式 模板 采集 方法 系統(tǒng) | ||
1.一種網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,包括:
針對不同類型的網(wǎng)頁配置不同的數(shù)據(jù)采集模板,并將所述數(shù)據(jù)采集模板按所述網(wǎng)頁的類型分別導(dǎo)入不同的數(shù)據(jù)表中進(jìn)行存儲;
根據(jù)被采集的網(wǎng)頁的類型從所述數(shù)據(jù)表中獲取相應(yīng)的數(shù)據(jù)采集模板,并將獲取到的數(shù)據(jù)采集模板放入模板池中;
將所述模板池中的數(shù)據(jù)采集模板分發(fā)到至少兩個采集客戶端,所述采集客戶端分別根據(jù)所述數(shù)據(jù)采集模板對所述網(wǎng)頁進(jìn)行數(shù)據(jù)抽取,分別得到網(wǎng)頁的網(wǎng)頁數(shù)據(jù);
針對每個采集客戶端得到的網(wǎng)頁數(shù)據(jù)進(jìn)行整合,得到完善的網(wǎng)頁數(shù)據(jù);
其中,所述根據(jù)被采集的網(wǎng)頁的類型從所述數(shù)據(jù)表中獲取相應(yīng)的數(shù)據(jù)采集模板,并將獲取到的數(shù)據(jù)采集模板放入模板池中,具體包括:
S21、采集服務(wù)器調(diào)用所述服務(wù)接口,根據(jù)被采集的網(wǎng)頁類型從所述數(shù)據(jù)表中獲取相應(yīng)的數(shù)據(jù)采集模板;
S22、所述采集服務(wù)器將獲取到的數(shù)據(jù)采集模板放入模板池中,并實(shí)時監(jiān)控模板池中的所
述數(shù)據(jù)采集模板的數(shù)量;
S23、當(dāng)所述模板池中的所述數(shù)據(jù)采集模板的數(shù)量小于預(yù)設(shè)值時,執(zhí)行S21;當(dāng)所述模板池中的所述數(shù)據(jù)采集模板的數(shù)量大于或等于預(yù)設(shè)值時,將所述模板池中的數(shù)據(jù)采集模板分發(fā)到至少兩個采集客戶端。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,所述數(shù)據(jù)采集模板包括:站點(diǎn)層模板、頻道層模板和正文層模板;
所述站點(diǎn)層模板包括:站點(diǎn)名、站點(diǎn)地址、編碼格式、國家、語言和頻道列表;
所述頻道層模板包括:頻道名、頻道地址、編碼格式、分類屬性、是否需要代理訪問和頁面標(biāo)識;
所述正文層模板包括:標(biāo)題解析、正文解析、發(fā)布時間解析、作者解析、來源解析和圖片解析。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,針對不同類型的網(wǎng)頁配置不同的數(shù)據(jù)采集模板,并將所述數(shù)據(jù)采集模板按所述網(wǎng)頁的類型分別導(dǎo)入不同的數(shù)據(jù)表中進(jìn)行存儲,具體包括:
S11、根據(jù)網(wǎng)頁的類型配置站點(diǎn)層模板,得到站點(diǎn)模板,判斷所述網(wǎng)頁是否存在頻道地址;是則,執(zhí)行S12,否則,所述站點(diǎn)模板為所述網(wǎng)頁的所述數(shù)據(jù)采集模板,執(zhí)行S14;
S12、基于所述站點(diǎn)模板配置頻道層模板,得到頻道模板,判斷所述網(wǎng)頁的頻道地址是否存在正文,是則,執(zhí)行S13,否則,所述頻道模板為所述數(shù)據(jù)采集模板,執(zhí)行S14;
S13、基于所述頻道模板配置正文層模板,得到所述數(shù)據(jù)采集模板;
S14、根據(jù)數(shù)據(jù)采集模板的不同按所述網(wǎng)頁的類型分別導(dǎo)入不同的數(shù)據(jù)表中進(jìn)行存儲,并設(shè)置與所述數(shù)據(jù)表相對應(yīng)的服務(wù)接口。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,所述將所述模板池中的數(shù)據(jù)采集模板分發(fā)到至少兩個采集客戶端,具體包括:
當(dāng)采集客戶端調(diào)用所述服務(wù)接口時,所述采集服務(wù)器將所述模板池中的數(shù)據(jù)采集模板分發(fā)到所述采集客戶端,并將所述數(shù)據(jù)采集模板分發(fā)到至少一個其他的所述采集客戶端。
5.根據(jù)權(quán)利要求4所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,所述采集客戶端分別根據(jù)所述數(shù)據(jù)采集模板對所述網(wǎng)頁進(jìn)行數(shù)據(jù)抽取,得到所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù),具體包括:
所述采集客戶端根據(jù)所述數(shù)據(jù)采集模板提取所述網(wǎng)頁的站點(diǎn)地址,并根據(jù)所述站點(diǎn)地址進(jìn)行網(wǎng)頁下載;
通過所述數(shù)據(jù)采集模板,基于XPATH技術(shù)對所述網(wǎng)頁進(jìn)行數(shù)據(jù)抽取,得到所述網(wǎng)頁的網(wǎng)頁數(shù)據(jù)。
6.根據(jù)權(quán)利要求1-5中任一所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,所述根據(jù)被采集的網(wǎng)頁的類型從所述數(shù)據(jù)表中獲取相應(yīng)的數(shù)據(jù)采集模板,具體包括:
獲取與所述網(wǎng)頁的類型相對應(yīng)的數(shù)據(jù)表中的全部所述數(shù)據(jù)采集模板。
7.根據(jù)權(quán)利要求1-5中任一所述的網(wǎng)頁數(shù)據(jù)分布式模板采集方法,其特征在于,所述根據(jù)被采集的網(wǎng)頁的類型從所述數(shù)據(jù)表中獲取相應(yīng)的數(shù)據(jù)采集模板,具體包括:
獲取與所述網(wǎng)頁的類型相對應(yīng)的數(shù)據(jù)表,根據(jù)預(yù)設(shè)模板ID從所述數(shù)據(jù)表中獲取與所述模板ID相應(yīng)的數(shù)據(jù)采集模板。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科聞歌科技股份有限公司,未經(jīng)北京中科聞歌科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810319851.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





