[發明專利]一種面向主流微博網站微博ID的采集方法及工具無效

申請號：	201310412348.7	申請日：	2013-09-11
公開（公告）號：	CN103440139A	公開（公告）日：	2013-12-11
發明（設計）人：	閆丹鳳;楊翔;張麗瑩;藍田;黃俊霖;唐皓瑾;鄒文濤;徐佳	申請（專利權）人：	北京郵電大學
主分類號：	G06F9/44	分類號：	G06F9/44;G06F17/30;H04L29/08
代理公司：	暫無信息	代理人：	暫無信息
地址：	100876 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種面向主流網站 id 采集方法工具
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及社交網站的ID采集技術特別是一種以主流微博網站開放API為基礎的微博ID采集方法及工具。

背景技術

微博作為社交網絡應用技術之一實現了基于用戶關系的信息分享、傳播以及獲取平臺，承載了大量基于社交網絡的信息。用戶通過WEB、WAP以及各種客戶端組件個人社區，以140字左右的文字更新信息，并實現即時分享。中國互聯網絡信息中心（CNNIC）發布的《第31次中國互聯網絡發展狀況統計報告》顯示，截至2012年12月底，我國微博用戶規模為3.09億，較2011年底增長了5873萬。微博急速擴張的階段已經結束，但年增幅仍能達到23.5%。巨大的用戶量給微博帶來了巨大的信息量，對微博信息進行再利用的應用也隨之出現。新浪和騰訊等主流微博網站都開放了針對微博操作的API，用于支持和鼓勵基于微博數據信息的第三方應用的發展。基于API的第三方應用開發模式將微博信息作為基礎的數據信息，進一步提供針對微博的分類、分析、檢索等等升級應用，提升了微博數據的利用價值，是推動社交網絡信息有效地再利用的典范。現有已經出現部分應用在一定程度上實現了對微博信息的再利用，但是對信息的采集工作任然是一項艱巨的任務，截至2013年4月底，新浪微博的注冊用戶規模為5.03億，日活躍用戶4620萬，用戶id為int64（8Bytes），總的數據量約為4G；騰訊微博的注冊用戶為5.4億，日活躍用戶1億，用戶id為32個char的字符串（32Bytes），總的數據量約為16G；搜狐微博的注冊用戶約為1億；以新浪微博為例，假設平均每個用戶發布50條微博，每條微博平均含有20個漢字，每條微博平均包括4條評論，則微博信息的總體數據量為4G*50*20*2*（4+1）=400T。面對海量的微博信息，只能針對已知微博的URL鏈接采集微博數據，這種方式只是小范圍采集微博信息，所以急需一種能夠更加完整、全面的、并且支持大數據量存儲的數據采集工具用于采集微博唯一標識符-微博ID，進而通過微博ID采集具體的微博信息，從而實現更廣泛的微博信息的再利用，為上層應用提供更好的數據支持。

發明內容

有鑒于此，本發明的目的是提供一種面向主流微博網站的微博ID采集方法及工具，本發明的方法及工具基于網絡爬蟲和微博開放API，結合現有的索引和非結構化數據庫存儲方法，提出一套面向主流微博網站微博ID的采集方法及工具，本發明能自動化采集已存在的微博賬號ID，方便開發者進行再利用，為上層應用提供更好的數據支持。特有的分布式數據存儲方法讓本發明具備更好的可擴展性。

為了達到上述目的，本發明的目的是提供一種面向主流微博網站微博ID的采集方法及工具，其架構分為兩個層次，分別為采集層和存儲層。采集層實現微博ID的采集，存儲層實現本地存儲，并提供開放式的檢索功能；其中：

采集層，實現認證用戶ID爬取和認證用戶粉絲ID的采集工作，由網絡爬取模塊和微博API模塊組成。

存儲層，負責對采集層中獲取的微博ID進行去重操作以及將微博ID進行存儲，提供微博ID查詢接口，并預留字段，為后續操作提供一定的擴展性能。

所述采集層的各模塊的功能分別是：

網絡爬取模塊，負責針對新浪、騰訊微博認證用戶網頁中微博ID的抓取工作，主要包括網頁爬取及解析和本地存儲的操作。其中網頁爬取及解析操作通過編寫瀏覽器插件的方式來完成，本地存儲操作通過編寫WebServer代碼的方式來完成。包括請求微博認證用戶首頁，一級、二級和三級分類頁面，解析頁面中的分類名稱及對應的URL，請求并解析各級分類頁面中的微博ID，并將微博ID存儲到本地的認證用戶ID采集目錄中的認證用戶ID文件中。其中認證用戶ID目錄是本地目錄，依據微博網站的認證用戶分類等級以及名稱自動分級建立；認證用戶ID文件以換行符分隔各個ID，并以“最下級分類名稱.txt”的格式命名。該模塊包括微博ID爬取子模塊和存儲子模塊。

微博API模塊，使用新浪、騰訊微博開放平臺提供的微博API，獲取微博認證用戶的粉絲ID。其操作流程包括首先獲得兩大微博開放平臺的授權令牌，其次根據不同微博的API接口，構造不同的參數給相應的API接口，得到JSON格式的微博ID數據，并將解析出的微博ID存入本地的粉絲ID采集目錄的粉絲ID文件中。其中，粉絲ID采集目錄是一個存儲粉絲ID文件的目錄，粉絲ID文件是存放該模塊獲取的ID的文本文件，以換行符分隔各個ID，每個文件存放一定數量的ID，文件以“當前時間戳.txt”的格式命名。

所述存儲層的各模塊的功能分別是：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學，未經北京郵電大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310412348.7/2.html，轉載請聲明來源鉆瓜專利網。