[發(fā)明專利]網(wǎng)頁數(shù)據(jù)解析方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201910042023.1 | 申請(qǐng)日: | 2019-01-17 |
| 公開(公告)號(hào): | CN109918428A | 公開(公告)日: | 2019-06-21 |
| 發(fā)明(設(shè)計(jì))人: | 檀傳華;冉夢(mèng)龍;孟文斌;李祖光;陳錦韜 | 申請(qǐng)(專利權(quán))人: | 重慶金融資產(chǎn)交易所有限責(zé)任公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/951 |
| 代理公司: | 深圳市沃德知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 400010 重慶市渝*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 抓取 網(wǎng)頁數(shù)據(jù)解析 解析 數(shù)據(jù)抓取 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) 頁面 網(wǎng)頁抓取 頁面數(shù)據(jù) 結(jié)構(gòu)化數(shù)據(jù)格式 數(shù)據(jù)采集技術(shù) 結(jié)構(gòu)化數(shù)據(jù) 結(jié)構(gòu)化信息 獨(dú)立運(yùn)行 分開執(zhí)行 格式轉(zhuǎn)換 網(wǎng)絡(luò)頁面 網(wǎng)站結(jié)構(gòu) 數(shù)據(jù)處理 低耦合 內(nèi)聚 匹配 抽取 存儲(chǔ) 轉(zhuǎn)換 | ||
1.一種網(wǎng)頁數(shù)據(jù)解析方法,其特征在于,所述方法包括:
在進(jìn)行數(shù)據(jù)抓取時(shí),針對(duì)需抓取的數(shù)據(jù)所在的網(wǎng)絡(luò)頁面,解析并獲取待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù);
根據(jù)解析出的待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù),利用與所述頁面?zhèn)€數(shù)相匹配的數(shù)據(jù)抓取方式進(jìn)行數(shù)據(jù)抓取,得到抓取的頁面數(shù)據(jù);
針對(duì)抓取到的所述頁面數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成所需的結(jié)構(gòu)化數(shù)據(jù)并存儲(chǔ)。
2.如權(quán)利要求1所述的網(wǎng)頁數(shù)據(jù)解析方法,其特征在于,所述根據(jù)解析出的待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù),利用與所述頁面?zhèn)€數(shù)相匹配的數(shù)據(jù)抓取方式進(jìn)行數(shù)據(jù)抓取,得到抓取的頁面數(shù)據(jù),包括:
若待抓取數(shù)據(jù)在單個(gè)頁面中,則從所述單個(gè)頁面中提取對(duì)應(yīng)的HTML文件片段;
若待抓取數(shù)據(jù)在多個(gè)頁面中,則從所述待抓取數(shù)據(jù)對(duì)應(yīng)的多個(gè)頁面中提取對(duì)應(yīng)的頁面數(shù)據(jù),并根據(jù)所述多個(gè)頁面間的數(shù)據(jù)關(guān)系,將提取的頁面數(shù)據(jù)生成對(duì)應(yīng)的數(shù)組。
3.如權(quán)利要求2所述的網(wǎng)頁數(shù)據(jù)解析方法,其特征在于,所述根據(jù)所述多個(gè)頁面間的數(shù)據(jù)關(guān)系,將提取的頁面數(shù)據(jù)生成對(duì)應(yīng)的數(shù)組,包括:
根據(jù)待抓取數(shù)據(jù)對(duì)應(yīng)的網(wǎng)絡(luò)頁面HTML結(jié)構(gòu)中的表標(biāo)簽,提取所述網(wǎng)絡(luò)頁面HTML結(jié)構(gòu)中的頁面數(shù)據(jù),生成包含表的標(biāo)題和所述標(biāo)題對(duì)應(yīng)的明細(xì)數(shù)據(jù)的二維數(shù)組。
4.如權(quán)利要求1所述的網(wǎng)頁數(shù)據(jù)解析方法,其特征在于,所述針對(duì)抓取到的所述頁面數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成所需的結(jié)構(gòu)化數(shù)據(jù)并存儲(chǔ),包括:
從抓取到的所述頁面數(shù)據(jù)中抽取出結(jié)構(gòu)化數(shù)據(jù),得到抽取后余下的非結(jié)構(gòu)化數(shù)據(jù);
針對(duì)非結(jié)構(gòu)化數(shù)據(jù),利用數(shù)據(jù)加工引擎,按照預(yù)設(shè)的配置文件,對(duì)所述非機(jī)構(gòu)數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成所需的結(jié)構(gòu)化數(shù)據(jù);
將抽取出的所述結(jié)構(gòu)化數(shù)據(jù)與生成的所述結(jié)構(gòu)化數(shù)據(jù)均保存至分布式存儲(chǔ)型數(shù)據(jù)庫中。
5.如權(quán)利要求1至4任一項(xiàng)所述的網(wǎng)頁數(shù)據(jù)解析方法,其特征在于,所述針對(duì)抓取到的所述頁面數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成所需的結(jié)構(gòu)化數(shù)據(jù)并存儲(chǔ),之前還包括步驟:
對(duì)抓取到的所述頁面數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
6.一種網(wǎng)頁數(shù)據(jù)解析裝置,其特征在于,所述裝置包括存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有可在所述處理器上運(yùn)行的網(wǎng)頁數(shù)據(jù)解析程序,所述網(wǎng)頁數(shù)據(jù)解析程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如下步驟:
在進(jìn)行數(shù)據(jù)抓取時(shí),針對(duì)需抓取的數(shù)據(jù)所在的網(wǎng)絡(luò)頁面,解析并獲取待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù);
根據(jù)解析出的待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù),利用與所述頁面?zhèn)€數(shù)相匹配的數(shù)據(jù)抓取方式進(jìn)行數(shù)據(jù)抓取,得到抓取的頁面數(shù)據(jù);
針對(duì)抓取到的所述頁面數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,生成所需的結(jié)構(gòu)化數(shù)據(jù)并存儲(chǔ)。
7.如權(quán)利要求6所述的網(wǎng)頁數(shù)據(jù)解析裝置,其特征在于,所述網(wǎng)頁數(shù)據(jù)解析程序還可被所述處理器執(zhí)行,以在根據(jù)解析出的待抓取數(shù)據(jù)所在的頁面?zhèn)€數(shù),利用與所述頁面?zhèn)€數(shù)相匹配的數(shù)據(jù)抓取方式進(jìn)行數(shù)據(jù)抓取,得到抓取的頁面數(shù)據(jù),包括:
若待抓取數(shù)據(jù)在單個(gè)頁面中,則從所述單個(gè)頁面中提取對(duì)應(yīng)的HTML文件片段;
若待抓取數(shù)據(jù)在多個(gè)頁面中,則從所述待抓取數(shù)據(jù)對(duì)應(yīng)的多個(gè)頁面中提取對(duì)應(yīng)的頁面數(shù)據(jù),并根據(jù)所述多個(gè)頁面間的數(shù)據(jù)關(guān)系,將提取的頁面數(shù)據(jù)生成對(duì)應(yīng)的數(shù)組。
8.如權(quán)利要求7所述的網(wǎng)頁數(shù)據(jù)解析裝置,其特征在于,所述網(wǎng)頁數(shù)據(jù)解析程序還可被所述處理器執(zhí)行,以在所述根據(jù)所述多個(gè)頁面間的數(shù)據(jù)關(guān)系,將提取的頁面數(shù)據(jù)生成對(duì)應(yīng)的數(shù)組,包括:
根據(jù)待抓取數(shù)據(jù)對(duì)應(yīng)的網(wǎng)絡(luò)頁面HTML結(jié)構(gòu)中的表標(biāo)簽,提取所述網(wǎng)絡(luò)頁面HTML結(jié)構(gòu)中的頁面數(shù)據(jù),生成包含表的標(biāo)題和所述標(biāo)題對(duì)應(yīng)的明細(xì)數(shù)據(jù)的二維數(shù)組。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶金融資產(chǎn)交易所有限責(zé)任公司,未經(jīng)重慶金融資產(chǎn)交易所有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910042023.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)字廣播電視系統(tǒng)、機(jī)頂盒及節(jié)目播放方法
- 基于webkit內(nèi)核的瀏覽器及其處理方法
- 網(wǎng)頁數(shù)據(jù)分發(fā)處理方法和裝置及網(wǎng)頁生成處理方法和裝置
- 網(wǎng)頁數(shù)據(jù)抓取系統(tǒng)
- 解析爬蟲爬取的網(wǎng)頁數(shù)據(jù)的方法及裝置
- 一種爬取數(shù)據(jù)的方法和裝置
- 網(wǎng)頁數(shù)據(jù)解析方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 網(wǎng)頁解析器
- 生成數(shù)據(jù)采集腳本的方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 關(guān)鍵信息提取方法及裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)、電子設(shè)備
- 一種數(shù)據(jù)抓取系統(tǒng)的數(shù)據(jù)抓取方法
- 一種數(shù)據(jù)抓取系統(tǒng)
- 數(shù)據(jù)抓取方法和裝置
- 一種分布式垂直爬蟲方法及終端設(shè)備
- 一種頁面數(shù)據(jù)抓取方法及裝置
- 數(shù)據(jù)抓取方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種機(jī)械手臂的物體抓取方法及相關(guān)裝置
- 一種數(shù)據(jù)抓取及保存方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 多平臺(tái)爬蟲調(diào)度方法、裝置和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)抓取方法及系統(tǒng)





