[發明專利]一種面向主流微博網站微博ID的采集方法及工具無效
| 申請號: | 201310412348.7 | 申請日: | 2013-09-11 |
| 公開(公告)號: | CN103440139A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 閆丹鳳;楊翔;張麗瑩;藍田;黃俊霖;唐皓瑾;鄒文濤;徐佳 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F17/30;H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 主流 網站 id 采集 方法 工具 | ||
1.一種面向主流微博網站微博ID的采集方法及工具,其特征在于:所述系統架構分為兩個層次,分別為采集層和存儲層,層次和系統間的接口清晰,每層內部都由若干模塊組成,模塊之間的松耦合,有利于每層功能的擴展。采集層實現微博ID的采集,存儲層實現本地數據庫存儲,并提供開放式檢索功能。其中:
采集層,實現認證用戶ID爬取和認證用戶粉絲ID的采集工作,由網絡爬取模塊和微博API模塊組成。
存儲層,負責對采集層中獲取的微博ID進行去重操作以及將微博ID進行分布式存儲,并提供微博ID查詢接口,由去重與索引模塊和數據存儲模塊組成。
2.根據權利要求1所述的面向主流微博網站微博ID的采集方法及工具,其特征在于:所述采集層的各模塊的功能分別是:
網絡爬取模塊,負責針對新浪、騰訊微博認證用戶網頁中微博ID的抓取工作,主要包括網頁爬取、ID解析和ID本地存儲的操作。其中網頁爬取及ID解析操作通過編寫瀏覽器插件的方式來完成,本地存儲操作通過編寫WebServer代碼的方式來完成。流程包括請求微博認證用戶首頁,一級、二級和三級分類頁面,解析頁面中的分類名稱及對應的URL,請求并解析各級分類頁面中的微博ID,并將微博ID存儲到本地的認證用戶ID采集目錄中的認證用戶ID文件中。
微博API模塊,使用新浪、騰訊微博開放平臺提供的微博API,獲取微博認證用戶的粉絲ID。其操作流程包括首先獲得兩大微博開放平臺的授權令牌,其次根據不同微博的API接口,構造不同的參數給相應的API接口,得到JSON格式的微博ID數據,并將解析出的微博ID存入本地的粉絲ID采集目錄的粉絲ID文件中。
3.根據權利要求1所述的面向主流微博網站微博ID的采集方法及工具,其特征在于:所述存儲層的各模塊的功能分別是:
去重與索引模塊,負責利用開源的索引工具Lucene對微博API模塊采集的微博ID進行去重操作并建立索引,定期從索引中導出微博ID以供數據存儲模塊處理。導出的微博ID存儲在本地的微博ID導出目錄的微博ID導出文件中。
數據存儲模塊,負責從本地的微博ID導出目錄中讀取微博ID導出文件,并使用開源的分布式系統Hadoop中的存儲工具Hbase將文件中的微博ID進行分布式存儲,同時提供微博ID查詢接口。
4.根據權利要求2所述的采集層,其特征在于:所述的網絡爬取模塊的各子模塊的功能分別是:
微博ID爬取子模塊,通過編寫瀏覽器插件的方式請求并解析微博認證用戶分類頁面,并將解析出的ID發送給該模塊的存儲子模塊。由于瀏覽器插件使用Javascript語言編寫,采用jQuery等Javascript庫簡化請求頁面和解析HTML文檔的操作;由于瀏覽器插件代碼會在瀏覽器加載完指定的頁面后自動執行,通過設置代碼在微博登陸后執行來避開對微博登陸過程的開發;利用Javascript能夠向同一域名內的任何資源發起Get/Post請求的特性,請求到所有的微博認證用戶的頁面;利用瀏覽器插件支持跨域XMLHttpRequest請求的特點(XMLHttpRequest是Javascript發送Get/Post請求的基礎),將爬取的ID通過Get/Post請求發送到自己編寫的WebServer上進行本地存儲。
存儲子模塊,使用WebServer接收新浪、騰訊微博ID爬取子模塊的Get/Post請求,按照一級和二級分類分別在本地建立一級和二級認證用戶ID采集目錄并以分類名稱命名,并將微博ID按照所屬分類存入相應的認證用戶ID采集目錄的認證用戶ID文件中。
5.根據權利要求2所述的采集層,其特征在于:所述的微博API模塊,自動化獲取授權令牌以支持長期地通過API的方式不斷地獲取認證用戶的粉絲ID。其中新浪微博的授權令牌需要通過模擬HTTPS請求的方式自動化獲取,騰訊微博的授權令牌只需要定期調用騰訊微博提供的令牌刷新API即可在3個月內實現自動化獲取。通過API的方式獲取的粉絲ID數量達到一定閾值時,將粉絲ID存入粉絲ID采集目錄的粉絲ID文件中,粉絲ID文件以換行符分隔各個ID,以“當前時間戳.txt”的格式命名。包括新浪授權令牌獲取子模塊、騰訊授權令牌獲取子模塊和粉絲采集子模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310412348.7/1.html,轉載請聲明來源鉆瓜專利網。





