[發明專利]一種面向主流微博網站微博ID的采集方法及工具無效
| 申請號: | 201310412348.7 | 申請日: | 2013-09-11 |
| 公開(公告)號: | CN103440139A | 公開(公告)日: | 2013-12-11 |
| 發明(設計)人: | 閆丹鳳;楊翔;張麗瑩;藍田;黃俊霖;唐皓瑾;鄒文濤;徐佳 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F17/30;H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 主流 網站 id 采集 方法 工具 | ||
技術領域
本發明涉及社交網站的ID采集技術特別是一種以主流微博網站開放API為基礎的微博ID采集方法及工具。
背景技術
微博作為社交網絡應用技術之一實現了基于用戶關系的信息分享、傳播以及獲取平臺,承載了大量基于社交網絡的信息。用戶通過WEB、WAP以及各種客戶端組件個人社區,以140字左右的文字更新信息,并實現即時分享。中國互聯網絡信息中心(CNNIC)發布的《第31次中國互聯網絡發展狀況統計報告》顯示,截至2012年12月底,我國微博用戶規模為3.09億,較2011年底增長了5873萬。微博急速擴張的階段已經結束,但年增幅仍能達到23.5%。巨大的用戶量給微博帶來了巨大的信息量,對微博信息進行再利用的應用也隨之出現。新浪和騰訊等主流微博網站都開放了針對微博操作的API,用于支持和鼓勵基于微博數據信息的第三方應用的發展。基于API的第三方應用開發模式將微博信息作為基礎的數據信息,進一步提供針對微博的分類、分析、檢索等等升級應用,提升了微博數據的利用價值,是推動社交網絡信息有效地再利用的典范。現有已經出現部分應用在一定程度上實現了對微博信息的再利用,但是對信息的采集工作任然是一項艱巨的任務,截至2013年4月底,新浪微博的注冊用戶規模為5.03億,日活躍用戶4620萬,用戶id為int64(8Bytes),總的數據量約為4G;騰訊微博的注冊用戶為5.4億,日活躍用戶1億,用戶id為32個char的字符串(32Bytes),總的數據量約為16G;搜狐微博的注冊用戶約為1億;以新浪微博為例,假設平均每個用戶發布50條微博,每條微博平均含有20個漢字,每條微博平均包括4條評論,則微博信息的總體數據量為4G*50*20*2*(4+1)=400T。面對海量的微博信息,只能針對已知微博的URL鏈接采集微博數據,這種方式只是小范圍采集微博信息,所以急需一種能夠更加完整、全面的、并且支持大數據量存儲的數據采集工具用于采集微博唯一標識符-微博ID,進而通過微博ID采集具體的微博信息,從而實現更廣泛的微博信息的再利用,為上層應用提供更好的數據支持。
發明內容
有鑒于此,本發明的目的是提供一種面向主流微博網站的微博ID采集方法及工具,本發明的方法及工具基于網絡爬蟲和微博開放API,結合現有的索引和非結構化數據庫存儲方法,提出一套面向主流微博網站微博ID的采集方法及工具,本發明能自動化采集已存在的微博賬號ID,方便開發者進行再利用,為上層應用提供更好的數據支持。特有的分布式數據存儲方法讓本發明具備更好的可擴展性。
為了達到上述目的,本發明的目的是提供一種面向主流微博網站微博ID的采集方法及工具,其架構分為兩個層次,分別為采集層和存儲層。采集層實現微博ID的采集,存儲層實現本地存儲,并提供開放式的檢索功能;其中:
采集層,實現認證用戶ID爬取和認證用戶粉絲ID的采集工作,由網絡爬取模塊和微博API模塊組成。
存儲層,負責對采集層中獲取的微博ID進行去重操作以及將微博ID進行存儲,提供微博ID查詢接口,并預留字段,為后續操作提供一定的擴展性能。
所述采集層的各模塊的功能分別是:
網絡爬取模塊,負責針對新浪、騰訊微博認證用戶網頁中微博ID的抓取工作,主要包括網頁爬取及解析和本地存儲的操作。其中網頁爬取及解析操作通過編寫瀏覽器插件的方式來完成,本地存儲操作通過編寫WebServer代碼的方式來完成。包括請求微博認證用戶首頁,一級、二級和三級分類頁面,解析頁面中的分類名稱及對應的URL,請求并解析各級分類頁面中的微博ID,并將微博ID存儲到本地的認證用戶ID采集目錄中的認證用戶ID文件中。其中認證用戶ID目錄是本地目錄,依據微博網站的認證用戶分類等級以及名稱自動分級建立;認證用戶ID文件以換行符分隔各個ID,并以“最下級分類名稱.txt”的格式命名。該模塊包括微博ID爬取子模塊和存儲子模塊。
微博API模塊,使用新浪、騰訊微博開放平臺提供的微博API,獲取微博認證用戶的粉絲ID。其操作流程包括首先獲得兩大微博開放平臺的授權令牌,其次根據不同微博的API接口,構造不同的參數給相應的API接口,得到JSON格式的微博ID數據,并將解析出的微博ID存入本地的粉絲ID采集目錄的粉絲ID文件中。其中,粉絲ID采集目錄是一個存儲粉絲ID文件的目錄,粉絲ID文件是存放該模塊獲取的ID的文本文件,以換行符分隔各個ID,每個文件存放一定數量的ID,文件以“當前時間戳.txt”的格式命名。
所述存儲層的各模塊的功能分別是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310412348.7/2.html,轉載請聲明來源鉆瓜專利網。





