[發明專利]一種面向主流微博網站微博ID的采集方法及工具無效

申請號：	201310412348.7	申請日：	2013-09-11
公開（公告）號：	CN103440139A	公開（公告）日：	2013-12-11
發明（設計）人：	閆丹鳳;楊翔;張麗瑩;藍田;黃俊霖;唐皓瑾;鄒文濤;徐佳	申請（專利權）人：	北京郵電大學
主分類號：	G06F9/44	分類號：	G06F9/44;G06F17/30;H04L29/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	100876 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向主流網站 id 采集方法工具
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種面向主流微博網站微博ID的采集方法及工具，其特征在于：所述系統架構分為兩個層次，分別為采集層和存儲層，層次和系統間的接口清晰，每層內部都由若干模塊組成，模塊之間的松耦合，有利于每層功能的擴展。采集層實現微博ID的采集，存儲層實現本地數據庫存儲，并提供開放式檢索功能。其中：

采集層，實現認證用戶ID爬取和認證用戶粉絲ID的采集工作，由網絡爬取模塊和微博API模塊組成。

存儲層，負責對采集層中獲取的微博ID進行去重操作以及將微博ID進行分布式存儲，并提供微博ID查詢接口，由去重與索引模塊和數據存儲模塊組成。

2.根據權利要求1所述的面向主流微博網站微博ID的采集方法及工具，其特征在于：所述采集層的各模塊的功能分別是：

網絡爬取模塊，負責針對新浪、騰訊微博認證用戶網頁中微博ID的抓取工作，主要包括網頁爬取、ID解析和ID本地存儲的操作。其中網頁爬取及ID解析操作通過編寫瀏覽器插件的方式來完成，本地存儲操作通過編寫WebServer代碼的方式來完成。流程包括請求微博認證用戶首頁，一級、二級和三級分類頁面，解析頁面中的分類名稱及對應的URL，請求并解析各級分類頁面中的微博ID，并將微博ID存儲到本地的認證用戶ID采集目錄中的認證用戶ID文件中。

微博API模塊，使用新浪、騰訊微博開放平臺提供的微博API，獲取微博認證用戶的粉絲ID。其操作流程包括首先獲得兩大微博開放平臺的授權令牌，其次根據不同微博的API接口，構造不同的參數給相應的API接口，得到JSON格式的微博ID數據，并將解析出的微博ID存入本地的粉絲ID采集目錄的粉絲ID文件中。

3.根據權利要求1所述的面向主流微博網站微博ID的采集方法及工具，其特征在于：所述存儲層的各模塊的功能分別是：

去重與索引模塊，負責利用開源的索引工具Lucene對微博API模塊采集的微博ID進行去重操作并建立索引，定期從索引中導出微博ID以供數據存儲模塊處理。導出的微博ID存儲在本地的微博ID導出目錄的微博ID導出文件中。

數據存儲模塊，負責從本地的微博ID導出目錄中讀取微博ID導出文件，并使用開源的分布式系統Hadoop中的存儲工具Hbase將文件中的微博ID進行分布式存儲，同時提供微博ID查詢接口。

4.根據權利要求2所述的采集層，其特征在于：所述的網絡爬取模塊的各子模塊的功能分別是：

微博ID爬取子模塊，通過編寫瀏覽器插件的方式請求并解析微博認證用戶分類頁面，并將解析出的ID發送給該模塊的存儲子模塊。由于瀏覽器插件使用Javascript語言編寫，采用jQuery等Javascript庫簡化請求頁面和解析HTML文檔的操作；由于瀏覽器插件代碼會在瀏覽器加載完指定的頁面后自動執行，通過設置代碼在微博登陸后執行來避開對微博登陸過程的開發；利用Javascript能夠向同一域名內的任何資源發起Get/Post請求的特性，請求到所有的微博認證用戶的頁面；利用瀏覽器插件支持跨域XMLHttpRequest請求的特點（XMLHttpRequest是Javascript發送Get/Post請求的基礎），將爬取的ID通過Get/Post請求發送到自己編寫的WebServer上進行本地存儲。

存儲子模塊，使用WebServer接收新浪、騰訊微博ID爬取子模塊的Get/Post請求，按照一級和二級分類分別在本地建立一級和二級認證用戶ID采集目錄并以分類名稱命名，并將微博ID按照所屬分類存入相應的認證用戶ID采集目錄的認證用戶ID文件中。

5.根據權利要求2所述的采集層，其特征在于：所述的微博API模塊，自動化獲取授權令牌以支持長期地通過API的方式不斷地獲取認證用戶的粉絲ID。其中新浪微博的授權令牌需要通過模擬HTTPS請求的方式自動化獲取，騰訊微博的授權令牌只需要定期調用騰訊微博提供的令牌刷新API即可在3個月內實現自動化獲取。通過API的方式獲取的粉絲ID數量達到一定閾值時，將粉絲ID存入粉絲ID采集目錄的粉絲ID文件中，粉絲ID文件以換行符分隔各個ID，以“當前時間戳.txt”的格式命名。包括新浪授權令牌獲取子模塊、騰訊授權令牌獲取子模塊和粉絲采集子模塊。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學，未經北京郵電大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310412348.7/1.html，轉載請聲明來源鉆瓜專利網。