[發(fā)明專利]一種基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910909270.7 | 申請日: | 2019-09-25 |
| 公開(公告)號: | CN110781367B | 公開(公告)日: | 2023-10-20 |
| 發(fā)明(設計)人: | 程學旗;史存會;胡耀康;朱運昌;俞曉明;劉悅 | 申請(專利權(quán))人: | 中國科學院計算技術(shù)研究所 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955 |
| 代理公司: | 北京律誠同業(yè)知識產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國;張燕華 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 中間人 互聯(lián)網(wǎng) 數(shù)據(jù) 采集 方法 系統(tǒng) | ||
1.一種基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,包括:
步驟1、通過安裝中間人代理證書至網(wǎng)頁信息采集設備,建立該網(wǎng)頁信息采集設備的中間人,該網(wǎng)頁信息采集設備訪問互聯(lián)網(wǎng)中網(wǎng)頁信息時,中間人代理該網(wǎng)頁信息采集設備的全部網(wǎng)絡流量;
步驟2、該中間人獲取包含待采集網(wǎng)頁URL正則表達式的采集任務,捕獲該全部網(wǎng)絡流量中符合該URL正則表達式的流量,作為中間流量,并將該采集任務注入該中間流量的HTML頁面中,得到待解析頁面并將其存入第一數(shù)據(jù)庫;
步驟3、解析模塊根據(jù)該第一數(shù)據(jù)庫中待解析頁面的URL信息,將待解析頁面分發(fā)給解析器實例進行解析,從中獲取包含結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁采集結(jié)果并將其存入第二數(shù)據(jù)庫。
2.如權(quán)利要求1所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,該步驟2包括:該中間人根據(jù)該網(wǎng)頁信息采集設備配置的HTTPS安全證書,對該網(wǎng)絡流量中加密內(nèi)容進行解密。
3.如權(quán)利要求1所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,步驟2中該采集任務的生成過程包括:根據(jù)預先配置的種子信息生成該采集任務,或者根據(jù)采集得到的網(wǎng)頁采集結(jié)果生成新的該采集任務。
4.如權(quán)利要求1所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,步驟2包括:根據(jù)配置的URL正則表達式對部分HTTP/HTTPS請求進行攔截,返回空內(nèi)容,以提高采集效率。
5.如權(quán)利要求1所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集方法,其特征在于,步驟2中該采集任務包括:HTML頁面采集任務和動態(tài)內(nèi)容采集任務;該HTML頁面采集任務包括跳轉(zhuǎn)代碼,跳轉(zhuǎn)到下次要采集的URL;該動態(tài)內(nèi)容采集任務不僅包括跳轉(zhuǎn)代碼,還包括使用JavaScript代碼獲取相應的接口參數(shù)以及用被采集頁面的JavaScript代碼。
6.一種基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),其特征在于,包括:
模塊1、通過安裝中間人代理證書至網(wǎng)頁信息采集設備,建立該網(wǎng)頁信息采集設備的中間人,該網(wǎng)頁信息采集設備訪問互聯(lián)網(wǎng)中網(wǎng)頁信息時,中間人代理該網(wǎng)頁信息采集設備的全部網(wǎng)絡流量;
模塊2、該中間人獲取包含待采集網(wǎng)頁URL正則表達式的采集任務,捕獲該全部網(wǎng)絡流量中符合該URL正則表達式的流量,作為中間流量,并將該采集任務注入該中間流量的HTML頁面中,得到待解析頁面并將其存入第一數(shù)據(jù)庫;
模塊3、解析模塊根據(jù)該第一數(shù)據(jù)庫中待解析頁面的URL信息,將待解析頁面分發(fā)給解析器實例進行解析,從中獲取包含結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁采集結(jié)果并將其存入第二數(shù)據(jù)庫。
7.如權(quán)利要求6所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),其特征在于,該模塊2包括:該中間人根據(jù)該網(wǎng)頁信息采集設備配置的HTTPS安全證書,對該網(wǎng)絡流量中加密內(nèi)容進行解密。
8.如權(quán)利要求6所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),其特征在于,模塊2中該采集任務的生成過程包括:根據(jù)預先配置的種子信息生成該采集任務,或者根據(jù)采集得到的網(wǎng)頁采集結(jié)果生成新的該采集任務。
9.如權(quán)利要求6所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),其特征在于,模塊2包括:根據(jù)配置的URL正則表達式對部分HTTP/HTTPS請求進行攔截,返回空內(nèi)容,以提高采集效率。
10.如權(quán)利要求6所述的基于中間人的互聯(lián)網(wǎng)數(shù)據(jù)采集系統(tǒng),其特征在于,模塊2中該采集任務包括:HTML頁面采集任務和動態(tài)內(nèi)容采集任務;該HTML頁面采集任務包括跳轉(zhuǎn)代碼,跳轉(zhuǎn)到下次要采集的URL;該動態(tài)內(nèi)容采集任務不僅包括跳轉(zhuǎn)代碼,還包括使用JavaScript代碼獲取相應的接口參數(shù)以及用被采集頁面的JavaScript代碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院計算技術(shù)研究所,未經(jīng)中國科學院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910909270.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡電視的互聯(lián)網(wǎng)業(yè)務處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





