[發(fā)明專利]一種網(wǎng)絡(luò)輿情數(shù)據(jù)爬蟲代碼快速生成方法在審
| 申請?zhí)枺?/td> | 202210639703.3 | 申請日: | 2022-06-07 |
| 公開(公告)號: | CN115033771A | 公開(公告)日: | 2022-09-09 |
| 發(fā)明(設(shè)計)人: | 楊威;杜阿衛(wèi);韓珍妮 | 申請(專利權(quán))人: | 啟明信息技術(shù)股份有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F8/30 |
| 代理公司: | 成都金英專利代理事務(wù)所(普通合伙) 51218 | 代理人: | 袁國君 |
| 地址: | 130117 吉林省長春市長*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 輿情 數(shù)據(jù) 爬蟲 代碼 快速 生成 方法 | ||
本發(fā)明公開了一種網(wǎng)絡(luò)輿情數(shù)據(jù)爬蟲代碼快速生成方法,包括以下具體步驟:S1:確認(rèn)輿情渠道信息;S2:爬取并分析輿情數(shù)據(jù);S3:根據(jù)輿情數(shù)據(jù)的分析結(jié)果,開發(fā)輿情數(shù)據(jù)爬蟲代碼;S4:在線調(diào)試輿情數(shù)據(jù)爬蟲代碼;S5:將調(diào)試后的輿情數(shù)據(jù)爬蟲代碼上線。本發(fā)明通過對爬蟲開發(fā)流程的分析,設(shè)計爬蟲工具技術(shù)架構(gòu)并優(yōu)化開發(fā)流程,提高開發(fā)效率、縮短開發(fā)時間、降低開發(fā)運(yùn)維成本。
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)輿情爬蟲開發(fā)技術(shù)領(lǐng)域,尤其一種網(wǎng)絡(luò)輿情數(shù)據(jù)爬蟲代碼快速生成方法。
背景技術(shù)
網(wǎng)絡(luò)輿情是指在互聯(lián)網(wǎng)上流行的對社會問題不同看法的網(wǎng)絡(luò)輿論,是社會輿論的一種表現(xiàn)形式,是通過互聯(lián)網(wǎng)傳播的公眾對現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問題所持的有較強(qiáng)影響力、傾向性的言論和觀點(diǎn)。網(wǎng)絡(luò)輿論則是各種流行網(wǎng)絡(luò)輿情的多元化集合。
網(wǎng)絡(luò)爬蟲(又稱為網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機(jī)器人),是一種按照一定的規(guī)則,自動地抓取互聯(lián)網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。爬蟲抓取某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源,爬蟲為輿情系統(tǒng)提供基礎(chǔ)數(shù)據(jù)支撐。
當(dāng)前主流的爬蟲開發(fā)語言有Java和Python,其中Java語言的爬蟲框架有Nutch,WebMagic,WebCollector等等,技術(shù)成熟度高,但入門門檻較高、爬蟲定制化開發(fā)能力較弱;Python語言的爬蟲框架有Scrapy、Pyspider等等,技術(shù)成熟,門檻低,其中Scrapy是一個快速、高層次的數(shù)據(jù)抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。用途廣泛,可以用于數(shù)據(jù)挖掘、監(jiān)測和自動化測試,可靈活的定制化爬取。
網(wǎng)絡(luò)輿情爬蟲開發(fā)的特點(diǎn)是爬取內(nèi)容多、范圍廣、運(yùn)維復(fù)雜,某些渠道還存在特殊限制的情況,如IP限制、驗(yàn)證碼等,這就即需要爬蟲框架穩(wěn)定性、通用性高,又需要框架簡單性、靈活性強(qiáng),以滿足不同情況下的數(shù)據(jù)爬取需求。
現(xiàn)有網(wǎng)絡(luò)輿情爬蟲開發(fā)流程是:開發(fā)人員訪問要爬取的目標(biāo)輿情網(wǎng)站,分析網(wǎng)站內(nèi)容中的標(biāo)題、內(nèi)容、時間、點(diǎn)擊量、回復(fù)量、評論內(nèi)容等等元素后,用PyCharm開發(fā)工具和Python開發(fā)語言編寫爬蟲代碼,實(shí)現(xiàn)相關(guān)數(shù)據(jù)元素的爬取,代碼本地測試通過后部署到生產(chǎn)環(huán)境,啟動運(yùn)行后爬取數(shù)據(jù)并推送到數(shù)據(jù)通道(Kafka)供下游輿情系統(tǒng)使用。
現(xiàn)有輿情數(shù)據(jù)爬蟲代碼開發(fā)流程如圖2所示。
當(dāng)前方案中輿情爬蟲開發(fā)流程,包括以下步驟:
S1,輿情渠道信息確認(rèn)階段:
S1.1,確認(rèn)要爬取的輿情數(shù)據(jù)渠道信息,如:網(wǎng)站名稱、網(wǎng)址、爬取欄目等。
S1.2,確認(rèn)要爬取的輿情數(shù)據(jù)爬取方式,如列表爬取、關(guān)鍵字搜索爬取等。
S2,輿情數(shù)據(jù)爬取分析階段:
S2.1,分析目標(biāo)輿情網(wǎng)站數(shù)據(jù)的獲取方式,Xpath或者接口API形式。
S2.2,分析目標(biāo)輿情網(wǎng)站爬取數(shù)據(jù)是否需要使用IP代理。
S2.3,分析目標(biāo)輿情網(wǎng)站爬取數(shù)據(jù)是否校驗(yàn)用戶代理(UA)。
S2.4,分析目標(biāo)輿情網(wǎng)站爬取數(shù)據(jù)是否需要用戶登錄(Cookie)。
S2.5,分析目標(biāo)輿情網(wǎng)站爬取數(shù)據(jù)是否采用預(yù)加載模式(JavaScript)。
S2.6,分析目標(biāo)輿情網(wǎng)站爬取列表數(shù)據(jù)相關(guān)信息:標(biāo)題、發(fā)布人、發(fā)布時間、網(wǎng)址等等信息。
S2.7,分析目標(biāo)輿情網(wǎng)站爬取內(nèi)容數(shù)據(jù)相關(guān)信息:發(fā)布內(nèi)容、點(diǎn)擊量、回復(fù)量等等信息。
S2.8,分析目標(biāo)輿情網(wǎng)站爬取評論數(shù)據(jù)相關(guān)信息:評論人、評論時間、評論內(nèi)容等等信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于啟明信息技術(shù)股份有限公司,未經(jīng)啟明信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210639703.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種輿情信息獲取方法及裝置
- 一種輿情歸并方法、裝置、服務(wù)器和存儲介質(zhì)
- 企業(yè)輿情監(jiān)測方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種輿情數(shù)據(jù)推送方法、裝置、存儲介質(zhì)和終端設(shè)備
- 一種輿情分析方法
- 輿情分析方法、裝置、終端設(shè)備及計算機(jī)可讀存儲介質(zhì)
- 知識庫構(gòu)建方法及裝置
- 生成輿情專題方法、系統(tǒng)及存儲介質(zhì)
- 基于區(qū)塊鏈、輿情和核心算法的金融風(fēng)控系統(tǒng)
- 網(wǎng)絡(luò)輿情云平臺用戶單位變更配置的方法及系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





