[發明專利]一種網絡輿情數據爬蟲代碼快速生成方法在審
| 申請號: | 202210639703.3 | 申請日: | 2022-06-07 |
| 公開(公告)號: | CN115033771A | 公開(公告)日: | 2022-09-09 |
| 發明(設計)人: | 楊威;杜阿衛;韓珍妮 | 申請(專利權)人: | 啟明信息技術股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F8/30 |
| 代理公司: | 成都金英專利代理事務所(普通合伙) 51218 | 代理人: | 袁國君 |
| 地址: | 130117 吉林省長春市長*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 輿情 數據 爬蟲 代碼 快速 生成 方法 | ||
1.一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,包括以下具體步驟:
S1:確認輿情渠道信息;
S2:爬取并分析輿情數據;
S3:根據輿情數據的分析結果,開發輿情數據爬蟲代碼;
S4:在線調試輿情數據爬蟲代碼;
S5:將調試后的輿情數據爬蟲代碼上線。
2.根據權利要求1所述的一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,所述步驟S1具體包括以下步驟:
S1.1:確認要爬取的輿情數據渠道信息,渠道信息包括網站名稱、網址和爬取欄目;
S1.2:確認要爬取的輿情數據爬取方式,爬取方式包括列表爬取和關鍵字搜索爬取。
3.根據權利要求1所述的一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,所述步驟S2具體包括以下步驟:
S2.1:分析目標輿情網站數據的獲取方式,獲取方式包括Xpath和接口API形式;
S2.2:分析目標輿情網站爬取數據是否需要使用IP代理;
S2.3:分析目標輿情網站爬取數據是否校驗用戶代理;
S2.4:分析目標輿情網站爬取數據是否需要用戶登錄;
S2.5:分析目標輿情網站爬取數據是否采用預加載模式;
S2.6:分析目標輿情網站爬取列表數據相關信息,列表相關信息包括標題、發布人、發布時間和網址信息;
S2.7:分析目標輿情網站爬取內容數據相關信息,內容相關信息包括發布內容、點擊量和回復量信息;
S2.8:分析目標輿情網站爬取評論數據相關信息,評論相關信息包括評論人、評論時間和評論內容信息。
4.根據權利要求1所述的一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,所述步驟S3具體包括以下步驟:
S3.1:工具端錄入要爬取的網站名稱、網址和欄目;
S3.2:工具端選擇網站爬取方式列表或關鍵字;
S3.3:工具端選擇解析方式Xpath或接口API;
S3.4:工具端選擇使用IP代理、用戶代理、用戶登錄或預加載模式;
S3.5:工具端選擇用XPATH或接口API方式解析列表信息;
S3.6:工具端選擇用XPATH或接口API方式解析內容信息;
S3.7:工具端選擇用XPATH或接口API方式解析評論信息。
5.根據權利要求1所述的一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,所述步驟S4具體包括以下步驟:
S4.1:工具端在線生成爬蟲代碼;
S4.2:工具端在線調試運行爬蟲代碼;
S4.2:工具端在線調試修改爬蟲代碼。
6.根據權利要求1所述的一種網絡輿情數據爬蟲代碼快速生成方法,其特征在于,所述步驟S5具體包括以下步驟:
S5.1:工具端在線導出并部署爬蟲代碼到服務端;
S5.2:爬蟲代碼上線試運行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于啟明信息技術股份有限公司,未經啟明信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210639703.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





