[發(fā)明專利]基于代理的侵入式社交數(shù)據(jù)采集方法有效
| 申請?zhí)枺?/td> | 201910037397.4 | 申請日: | 2019-01-15 |
| 公開(公告)號: | CN109831491B | 公開(公告)日: | 2022-03-15 |
| 發(fā)明(設(shè)計)人: | 李森;李凌悅;蘇磊 | 申請(專利權(quán))人: | 科大國創(chuàng)軟件股份有限公司 |
| 主分類號: | H04L67/02 | 分類號: | H04L67/02;H04L67/141;H04L67/56;H04L9/40;G06F16/951 |
| 代理公司: | 合肥洪雷知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 34164 | 代理人: | 孫小華 |
| 地址: | 230000 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 代理 侵入 社交 數(shù)據(jù) 采集 方法 | ||
本發(fā)明公開了一種基于代理的侵入式社交數(shù)據(jù)采集方法,涉及信息采集領(lǐng)域。本發(fā)明包括微信客戶端、代理服務(wù)器、程序服務(wù)器和微信服務(wù)器;利用抓包工具獲取服務(wù)端返回給客戶端的數(shù)據(jù)包,注入JS并返還給客戶端,在客戶端加載頁面時自動執(zhí)行JS代碼,使瀏覽器與程序建立連接,程序向瀏覽器發(fā)送指令控制整個采集流程。本發(fā)明通過下拉操作加載更多數(shù)據(jù),抓取完文章鏈接,接著執(zhí)行詳情鏈接獲取文章內(nèi)容、點贊數(shù)、閱讀數(shù)和評論等,公眾號文章采集數(shù)據(jù)全面,操作簡單,提高了數(shù)據(jù)采集效率。
技術(shù)領(lǐng)域
本發(fā)明屬于信息采集領(lǐng)域,特別是涉及一種基于代理的侵入式社交數(shù)據(jù) 采集方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的最主要手段,而 伴隨著數(shù)據(jù)量的不斷增加,如何有效的獲取并利用這些數(shù)據(jù)成為很關(guān)鍵的一 步。信息采集技術(shù)可以更加準確的獲取用戶想要的特定數(shù)據(jù),而大量的信息 數(shù)據(jù)的采集,也為反爬蟲技術(shù)的興起提供了舞臺,導(dǎo)致數(shù)據(jù)采集變得越來越 難。微信作為主流的社交軟件,微信公眾號文章也成為重要的信息采集來源。 現(xiàn)有的微信公眾號文章采集入口有三個:(1)搜狗微信,(2)微信公眾平臺 素材管理提供的接口,(3)微信客戶端(手機端或者pc端)。而由于反爬技 術(shù)和數(shù)據(jù)完整性的要求,微信客戶端是一個較好的選擇。雖然網(wǎng)絡(luò)上也有對 于微信公眾號文章采集的描述,但大多都不完整,或只是簡單的概述,而對 于相關(guān)專利,有的實現(xiàn)較為復(fù)雜,或者是通過瀏覽器與互聯(lián)網(wǎng)的交互獲取數(shù) 據(jù)。
如今現(xiàn)有的微信公眾號文章采集技術(shù),有通過搜狗微信作為入口,這種 方法缺點有:(1)反爬蟲限制,需要ip代理和打碼平臺的輔助(2)采集到 的文章鏈接不是永久性的,過段時間會失效(3)不能采集文章的點贊數(shù)、 閱讀數(shù)以及評論(4)采集到文章數(shù)幅有限只能是最近10篇;有通過微信公 眾平臺素材管理提供的接口采集數(shù)據(jù)的,這種方式缺點有:(1)登錄比較麻 煩需要用戶登錄,且需要掃碼確認;(2)反爬蟲限制,操作頻繁,直接封號;(3)獲得的文章鏈接仍無法獲得點贊數(shù)、閱讀數(shù)以及評論。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于代理的侵入式社交數(shù)據(jù)采集方法,通過 抓包工具獲取服務(wù)端返回給客戶端的數(shù)據(jù)包,注入JS并返還給客戶端,在客 戶端加載頁面時自動執(zhí)行JS代碼,使瀏覽器與程序建立連接,之后通過程序 向瀏覽器發(fā)送指令控制整個采集流程,解決了現(xiàn)有的公眾號采集需要IP代理 和打碼平臺的輔助、文章鏈接容易失效的問題。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明為一種基于代理的侵入式社交數(shù)據(jù)采集方法,包括如下步驟:
步驟S1:啟動調(diào)度程序定時任務(wù),從數(shù)據(jù)庫中取出公眾號放入redis中, 并進行去重處理;
步驟S2:定時從redis中取出地址放入rabbitMq隊列中;
步驟S3:用戶登錄微信客戶端,打開公眾號文章,向微信服務(wù)器發(fā)送請 求;
步驟S4:經(jīng)過代理服務(wù)器處理,代理截取微信服務(wù)器的響應(yīng)數(shù)據(jù),注入 JS響應(yīng)到客戶端;
步驟S5:根據(jù)注入的JS連接爬蟲服務(wù),爬蟲服務(wù)端通過注入的JS操作 客戶端;
步驟S6:從隊列中取出公眾號地址放到客戶端執(zhí)行請求,通過下拉操作 獲得公眾號歷史文章;
步驟S7:客戶端返回文章連接資源到程序中,保存到詳情隊列中;
步驟S8:判斷隊列中是否存在下一個公眾號地址;
若是,則通過客戶端發(fā)送請求并返回步驟S4繼續(xù)執(zhí)行;
若否,則執(zhí)行步驟S9;
步驟S9:從詳情隊列中取鏈接放到客戶端發(fā)起請求,經(jīng)過代理服務(wù)器注 入JS,連接程序服務(wù)端;
步驟S10:程序控制客戶端獲得文章信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大國創(chuàng)軟件股份有限公司,未經(jīng)科大國創(chuàng)軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910037397.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對象搜索方法及裝置
- 針對嵌入式應(yīng)用上下文中的搜索的查詢意圖表達
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲介質(zhì)
- 動態(tài)社交圈確定方法、裝置、設(shè)備及存儲介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計算機設(shè)備及存儲介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲介質(zhì)





