[發(fā)明專利]一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202011260845.6 | 申請(qǐng)日: | 2020-11-12 |
| 公開(公告)號(hào): | CN112364226A | 公開(公告)日: | 2021-02-12 |
| 發(fā)明(設(shè)計(jì))人: | 楊忠軍;李建 | 申請(qǐng)(專利權(quán))人: | 江蘇易啟策網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/958 |
| 代理公司: | 北京盛凡智榮知識(shí)產(chǎn)權(quán)代理有限公司 11616 | 代理人: | 朱學(xué)繪 |
| 地址: | 210000 江蘇省南京市秦淮區(qū)永豐大道*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 動(dòng)態(tài) 內(nèi)容 解析 交互式 信息 采集 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集方法,包括如下步驟:設(shè)定采集目標(biāo)網(wǎng)站和規(guī)則:用戶通過系統(tǒng)錄入需要采集的目標(biāo)網(wǎng)站,系統(tǒng)針對(duì)的是特定領(lǐng)域的信息采集,需要明確采集的范圍、起始條件、終止條件和采集間隔;動(dòng)態(tài)內(nèi)容解析采集和錄入:用戶通過動(dòng)態(tài)內(nèi)容解析采集插件對(duì)目標(biāo)網(wǎng)站的內(nèi)容進(jìn)行動(dòng)態(tài)解析。本發(fā)明增加了動(dòng)態(tài)內(nèi)容解析,可以更好的對(duì)爬取的內(nèi)容進(jìn)行結(jié)構(gòu)化,提高了數(shù)據(jù)的利用率,增加了交互式的數(shù)據(jù)采集方式,可以更好的應(yīng)對(duì)需要用戶授權(quán)的場景,提高了數(shù)據(jù)采集的范圍,優(yōu)化了數(shù)據(jù)采集的并發(fā)方式,可以更高效的完成高并發(fā)情況下的數(shù)據(jù)采集,提高了數(shù)據(jù)采集的效率。
技術(shù)領(lǐng)域
本發(fā)明涉及信息采集技術(shù)領(lǐng)域,尤其涉及一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集方法及系統(tǒng)。
背景技術(shù)
網(wǎng)絡(luò)信息采集是一種用于采集互聯(lián)網(wǎng)的信息工具,目前的技術(shù)主要是采用靜態(tài)的、機(jī)械式的、無交互的信息采集方法,該方法只能用于公開的、簡單的、無反爬措施的信息的收集,因此收集到的信息普遍簡單化、價(jià)值低、無用率高,無法滿足特定場景下對(duì)于高價(jià)值數(shù)據(jù)的要求。
缺陷:(1)傳統(tǒng)架構(gòu)的信息采集只能做通用的文本爬取,無法動(dòng)態(tài)的針對(duì)內(nèi)容進(jìn)行解析;
(2)傳統(tǒng)架構(gòu)的信息采集只能做無交互式的文本爬取,無法應(yīng)對(duì)復(fù)雜的邏輯和環(huán)境;
(3)傳統(tǒng)架構(gòu)的信息采集的并發(fā)采用軟件模擬,性能有限,無法應(yīng)對(duì)超大數(shù)據(jù)量和極高并發(fā)的場景。
發(fā)明內(nèi)容
基于背景技術(shù)存在的技術(shù)問題,本發(fā)明提出了一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集方法及系統(tǒng)。
本發(fā)明提出的一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集方法,包括如下步驟:
S1設(shè)定采集目標(biāo)網(wǎng)站和規(guī)則:用戶通過系統(tǒng)錄入需要采集的目標(biāo)網(wǎng)站,系統(tǒng)針對(duì)的是特定領(lǐng)域的信息采集,需要明確采集的范圍、起始條件、終止條件和采集間隔;
S2動(dòng)態(tài)內(nèi)容解析采集和錄入:用戶通過動(dòng)態(tài)內(nèi)容解析采集插件對(duì)目標(biāo)網(wǎng)站的內(nèi)容進(jìn)行動(dòng)態(tài)解析,設(shè)定解析的字段和對(duì)應(yīng)的規(guī)則,通過字段和規(guī)則將原本非結(jié)構(gòu)化、純文本的網(wǎng)頁內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化的字段和內(nèi)容,完成對(duì)網(wǎng)頁的動(dòng)態(tài)解析;
S3啟動(dòng)分布式異步信息采集中心調(diào)度:完成上述準(zhǔn)備工作后,用戶在平臺(tái)上創(chuàng)建數(shù)據(jù)采集的任務(wù),并設(shè)定采集的具體參數(shù),設(shè)定完成之后,會(huì)由調(diào)度中心對(duì)任務(wù)進(jìn)行調(diào)度,調(diào)度過程完全自動(dòng)化、可視化;
S4采用多終端采集設(shè)備進(jìn)行特定信息的采集:調(diào)度中心會(huì)將具體的任務(wù)分配到不同的采集設(shè)備上進(jìn)行采集,采集設(shè)備會(huì)提供采集時(shí)必要的信息,包含位置、網(wǎng)絡(luò)、身份、MAC地址等一些信息,提供采集程序需要的基礎(chǔ)信息;
S5交互式信息接入和使用:如果采集任務(wù)過程中需要用到交互式的信息,平臺(tái)會(huì)將需要的認(rèn)證信息,通過SDK、H5或API的方式發(fā)送給用戶,并由用戶提交授權(quán)信息到平臺(tái)中心進(jìn)行認(rèn)證,平臺(tái)中心會(huì)根據(jù)不同任務(wù)的不同認(rèn)證方式從系統(tǒng)的任務(wù)鏈上選擇具體的模塊執(zhí)行;
S6內(nèi)容解析并存儲(chǔ):完成授權(quán)信息認(rèn)證之后,采集設(shè)備會(huì)使用動(dòng)態(tài)解析腳本針對(duì)動(dòng)態(tài)的網(wǎng)頁內(nèi)容進(jìn)行解析,并將解析內(nèi)容存儲(chǔ)推送到存儲(chǔ)中心。
一種基于動(dòng)態(tài)內(nèi)容解析的交互式信息采集系統(tǒng),包括目標(biāo)確定模塊、內(nèi)容解析模塊、任務(wù)調(diào)度模塊、信息采集模塊、信息交互模塊和解析存儲(chǔ)模塊,所述目標(biāo)確定模塊、內(nèi)容解析模塊、任務(wù)調(diào)度模塊、信息采集模塊、信息交互模塊和解析存儲(chǔ)模塊依次連接。
優(yōu)選的,所述目標(biāo)確定模塊:通過系統(tǒng)錄入需要采集的目標(biāo)網(wǎng)站,系統(tǒng)針對(duì)的是特定領(lǐng)域的信息采集,明確采集的范圍、起始條件、終止條件和采集間隔。
優(yōu)選的,所述內(nèi)容解析模塊:用戶通過動(dòng)態(tài)內(nèi)容解析采集插件對(duì)目標(biāo)網(wǎng)站的內(nèi)容進(jìn)行動(dòng)態(tài)解析,設(shè)定解析的字段和對(duì)應(yīng)的規(guī)則,通過字段和規(guī)則將原本非結(jié)構(gòu)化、純文本的網(wǎng)頁內(nèi)容轉(zhuǎn)換為結(jié)構(gòu)化的字段和內(nèi)容,完成對(duì)網(wǎng)頁的動(dòng)態(tài)解析。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇易啟策網(wǎng)絡(luò)科技有限公司,未經(jīng)江蘇易啟策網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011260845.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 動(dòng)態(tài)矢量譯碼方法和動(dòng)態(tài)矢量譯碼裝置
- 動(dòng)態(tài)口令的顯示方法及動(dòng)態(tài)令牌
- 動(dòng)態(tài)庫管理方法和裝置
- 動(dòng)態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動(dòng)態(tài)口令生成方法、動(dòng)態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動(dòng)態(tài)模糊控制系統(tǒng)
- 一種基于動(dòng)態(tài)信號(hào)的POS機(jī)和安全保護(hù)方法
- 圖像動(dòng)態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動(dòng)態(tài)聚合碼的系統(tǒng)
- 基于動(dòng)態(tài)口令的身份認(rèn)證方法、裝置和動(dòng)態(tài)令牌
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法





