[發明專利]一種高可用的微博采集平臺及其方法在審
| 申請號: | 201410535111.2 | 申請日: | 2014-10-11 |
| 公開(公告)號: | CN104375826A | 公開(公告)日: | 2015-02-25 |
| 發明(設計)人: | 王鵬 | 申請(專利權)人: | 北京中搜網絡技術股份有限公司 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100191 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 可用 博采 平臺 及其 方法 | ||
技術領域
本發明屬于一種微博采集系統,具體講涉及一種高可用的微博采集平臺及其方法。
背景技術
微博作為新生網絡應用形式,在最近幾年得到了迅猛的發展,隨著微博用戶群體的增長,微博數據的獲取在微博搜索領域扮演著至關重要的角色。
目前微博網頁抽取方式多樣,主要分成兩類:基于微博頁面解析的數據獲取方法和基于微博api數據獲取方法。
基于微博頁面解析的數據獲取方法:這種方法主要是通過網絡爬蟲實現的,程序按照模板要求將網頁內容以文本文件的形式保存在本地存儲系統中,直到爬行完畢或者滿足既定條件后終止。
基于微博api數據獲取方法:這種方法主要是通過微博開放平臺提供的接口,然后對得到的數據按照格式要求進行解析。
傳統基于微博頁面解析的數據獲取方法,需要人工編寫模板,如果模板有變化,維護成本比較高,且抽取得到的數據多種類型摻雜在一起,數據不夠簡潔,需要再寫程序加以區分,效率比較低。
基于微博api數據獲取方法,首先要解決的是用戶認證的問題,并且四大微博媒體網站認證方法各不相同,這些不利于大規模數據抽取。
發明內容
針對現有技術的不足,本發明提出一種高可用的微博采集平臺及其方法,對微博用戶自動授權的機制,并對四大微博媒體網站的認證方法進行了規整,針對基于微博頁面解析獲取數據方法的缺陷,采用基于微博api數據獲取方法,程序邏輯控制api調用方法和頻率,獲取json對象并解析實現數據高效獲取。
本發明的目的是采用下述技術方案實現的:
一種高可用的微博采集平臺,其改進之處在于,所述平臺包括采集系統、管理后臺和數據處理系統;
所述管理后臺、采集系統和數據處理系統依次連接;
所述采集系統包括命令交互模塊、處理模塊、數據發送模塊、ZDP調用模塊、OpenAPI調用模塊。
優選的,所述平臺包括分布式登陸模塊,通過Gearman對馬甲進行多機分布式驗證。
優選的,所述平臺包括郵件發送模塊,用于將日志統計信息發送到相關郵件組。
本發明基于另一目的提供的一種高可用的微博采集方法,其改進之處在于,所述方法包括:
(1)啟動管理后臺;
(2)執行管理后臺指令并進行數據采集;
(3)馬甲分布式登錄和郵件發送。
優選的,所述步驟(1)包括
(1.1)對博主數據、應用數據、馬甲數據分別進行增加、刪除、修改和查詢;
(1.2)馬甲和應用進行關聯;
(1.3)馬甲登錄驗證;
(1.4)管理后臺將上述操作拼接成指令形式發至采集后臺。
優選的,所述步驟(2)包括
(2.1)采集后臺以指令的形式接到博主、馬甲和應用的相關操作,并將博主、馬甲和應用的操作結果寫入本地數據文件;
(2.2)采用馬甲關注博主,并將數據更新到馬甲文件中;
(2.3)授權流程讀取馬甲本地文件,調用登錄模塊對馬甲進行登錄認證;
(2.4)啟動微博博文、博主信息和話題獲取流程形成一個待下載的URL;
(2.5)將URL作為一個下載任務,提交至下載器,等待返回結果;
(2.6)讀取返回結果數據,并將數據按照類型存到對應的類對象中;
(2.7)將解析出來的博主信息、博文和話題數據發送給數據處理。
進一步地,所述步驟(2.3)包括將認證參數一并寫入馬甲本地文件,用于授權后的應用調用微博開放API。
進一步地,所述步驟(2.4)包括,獲取一個用于博文、博主信息和話題下載的馬甲,判斷馬甲的調度周期,按照微博開放API的要求,拼接請求參數,參數從馬甲文件中讀取,API加請求參數形成一個待下載的URL。
進一步地,所述步驟(2.6)包括得到的返回結果是json格式的,將json數據加載到json容器中,從json容器中按字段讀取數據,并將數據按照類型存到對應的類對象中。
優選的,所述步驟(3)馬甲分布式登錄包括采用多機登陸,登錄任務分配采用Gearman。
優選的,所述步驟(3)郵件發送包括
(3.1)對采集系統采集數據的日志進行統計;
(3.2)對四大微博媒體網站的數據下載次數,下載失敗次數,解析成功次數進行計算;
(3.3)生成采集系統的數據采集量報告;
(3.4)啟動郵件發送程序,將報告發送給負責人。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中搜網絡技術股份有限公司,未經北京中搜網絡技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410535111.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管路的夾持裝置
- 下一篇:一種可拆卸自由組合的管夾裝置





