[發明專利]一種基于動態內容解析的交互式信息采集方法及系統在審
| 申請號: | 202011260845.6 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112364226A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 楊忠軍;李建 | 申請(專利權)人: | 江蘇易啟策網絡科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958 |
| 代理公司: | 北京盛凡智榮知識產權代理有限公司 11616 | 代理人: | 朱學繪 |
| 地址: | 210000 江蘇省南京市秦淮區永豐大道*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 動態 內容 解析 交互式 信息 采集 方法 系統 | ||
1.一種基于動態內容解析的交互式信息采集方法,其特征在于,包括如下步驟:
S1設定采集目標網站和規則:用戶通過系統錄入需要采集的目標網站,系統針對的是特定領域的信息采集,需要明確采集的范圍、起始條件、終止條件和采集間隔;
S2動態內容解析采集和錄入:用戶通過動態內容解析采集插件對目標網站的內容進行動態解析,設定解析的字段和對應的規則,通過字段和規則將原本非結構化、純文本的網頁內容轉換為結構化的字段和內容,完成對網頁的動態解析;
S3啟動分布式異步信息采集中心調度:完成上述準備工作后,用戶在平臺上創建數據采集的任務,并設定采集的具體參數,設定完成之后,會由調度中心對任務進行調度,調度過程完全自動化、可視化;
S4采用多終端采集設備進行特定信息的采集:調度中心會將具體的任務分配到不同的采集設備上進行采集,采集設備會提供采集時必要的信息,包含位置、網絡、身份、MAC地址等一些信息,提供采集程序需要的基礎信息;
S5交互式信息接入和使用:如果采集任務過程中需要用到交互式的信息,平臺會將需要的認證信息,通過SDK、H5或API的方式發送給用戶,并由用戶提交授權信息到平臺中心進行認證,平臺中心會根據不同任務的不同認證方式從系統的任務鏈上選擇具體的模塊執行;
S6內容解析并存儲:完成授權信息認證之后,采集設備會使用動態解析腳本針對動態的網頁內容進行解析,并將解析內容存儲推送到存儲中心。
2.一種基于動態內容解析的交互式信息采集系統,其特征在于,包括目標確定模塊、內容解析模塊、任務調度模塊、信息采集模塊、信息交互模塊和解析存儲模塊,所述目標確定模塊、內容解析模塊、任務調度模塊、信息采集模塊、信息交互模塊和解析存儲模塊依次連接。
3.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述目標確定模塊:通過系統錄入需要采集的目標網站,系統針對的是特定領域的信息采集,明確采集的范圍、起始條件、終止條件和采集間隔。
4.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述內容解析模塊:用戶通過動態內容解析采集插件對目標網站的內容進行動態解析,設定解析的字段和對應的規則,通過字段和規則將原本非結構化、純文本的網頁內容轉換為結構化的字段和內容,完成對網頁的動態解析。
5.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述任務調度模塊:用戶在平臺上創建數據采集的任務,并設定采集的具體參數,設定完成之后,會由調度中心對任務進行調度,調度過程完全自動化、可視化。
6.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述信息采集模塊:調度中心將具體的任務分配到不同的采集設備上進行采集,采集設備會提供采集時必要的信息,包含位置、網絡、身份、MAC地址等一些信息,提供采集程序需要的基礎信息。
7.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述信息交互模塊:平臺會將需要的認證信息,通過SDK、H5或API的方式發送給用戶,并由用戶提交授權信息到平臺中心進行認證,平臺中心會根據不同任務的不同認證方式從系統的任務鏈上選擇具體的模塊執行。
8.根據權利要求2所述的一種基于動態內容解析的交互式信息采集系統,其特征在于,所述解析存儲模塊:完成授權信息認證之后,采集設備會使用動態解析腳本針對動態的網頁內容進行解析,并將解析內容存儲推送到存儲中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇易啟策網絡科技有限公司,未經江蘇易啟策網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011260845.6/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





