[發明專利]一種增量抓取微博信息的方法無效
| 申請號: | 201210145247.3 | 申請日: | 2012-05-11 |
| 公開(公告)號: | CN103389999A | 公開(公告)日: | 2013-11-13 |
| 發明(設計)人: | 倪志豪;梁循;曹潤;李亞平;余力;梁霞 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 增量 抓取 信息 方法 | ||
技術領域
發明屬于智能信息抓取技術,具體涉及一種增量微博抓取的方法。
背景技術
熱點事件、公共輿論的形成與發展,往往是由一個議論開始,并沿著若干級差從無序向有序逐漸遞進或者消減的過程。事件爆發時,猶如以石擊水,常常容易引起群眾的廣泛關注,使得有關信息在短時間內迅速傳遞,單位時間爆發出來的信息量很大。政府如何以最快速度收集整理分析網上相關輿情信息,跟蹤事件發展,快速回答公眾疑問,這些都是擺在輿情監管部門的難題。互聯網已經成為政府了解民情的直接渠道,也是新形勢下政府的重要輿論陣地。因此,網絡輿論一旦被錯誤地控制和引導,將成為影響社會穩定的重大隱患。如何應對網絡輿情,目前正在考驗著我國各級政府。
網絡日益成為人們發布信息、溝通信息的主要媒體,網絡上的信息也越來越能反映人們關注的焦點和社會熱點事件。Web2.0時代,網絡具有傳播快、成本低、聯動性強等特點,傳播環境、傳播的人都發生了天翻地覆的變化,民意表達逐漸向網絡傾斜。網絡論壇、博客、社交類網站、微博等給大家提供了可以盡情表達的渠道,網絡上的聲音是推動社會進步的力量,如何因勢利導,及時掌握社會輿情動態,積極引導社會輿論,是各級政府部門所面臨的嚴肅課題與嚴峻挑戰,而全面快速地收集這些意見和聲音是我們首先需要解決的問題。
隨著近年來網絡論壇、博客、社交類網站和微博的蓬勃發展,普通用戶在信息發表和傳播中逐漸開始起越來越重要的作用,互聯網用戶不再只是信息的被動接受者,同時也是互聯網信息資源的主動提供者和傳播者。以廣大網民為主角的論壇和博客,作為互聯網信息的一個重要組成部分,近幾年再次煥發青春,據統計,2010年其整體規模有了顯著的增長,其中網站數從1月的15.98萬增長到12月的22.18萬,增長率達到39%(http://www.chinabidding.com.cn/cblcn/it/rjshow?id=1020233637)。此外,近幾年新產生的微博在傳播領域的重要性也在為更多人所重視,越來越多的政府機構、企業、名人、正在開通微博,微博已經成為一個發表意見與看法的公認平臺,也是很多主流媒體的信息來源。據統計,2010年中國微博站點出現“井噴”式的增長(http://www.chinabidding.com.cn/cblcn/it/rjshow?id=1020233637)。微博(Twitter)在國外的迅猛發展引起了國內互聯網行業的關注。2009年8月,新浪微博內測版成為門戶網站中第一家提供微博服務的網站,微博正式進入中文上網主流人群視野。2010年,搜狐微博、網易微博、騰訊微博等開始內測。微博用戶規模幾何級數增長,截至2011年8月,新浪微博用戶數已超過2億(http://cn.wsj.com/gb/20110819/rth120835.asp?source=channel),騰訊微博用戶數也已經突破1億。
以上數據顯示微博信息越來越能代表網絡輿情與公共輿論,也就是說如果能全面了解掌握微博信息,也就掌握了網絡輿情的發展。微博的信息反映了社會熱點新聞或事件的出現或降溫,而網絡上反映熱點新聞或事件的信息又會進一步推動廣大網民對于熱點新聞和事件的關注程度和看法,能夠實時地、增量式地抓取微博信息才能全面正確地了解網絡輿情的發展情況,是十分重要的。
現有技術中,對于海量微博信息的采集工作不能做到增量式抓取,常常出現微博信息被重復多次抓取的情況。多數研究分析采用一次性抓取數據的方法,即一次性抓取過去某一段時間中的部分用戶的微博內容,這樣的抓取方式雖然也可以分析輿情走勢,找出熱點話題,但是第二次分析的時候又需要重頭進行抓取,降低了數據收集的時效性。同時,微博是一個始終變化的動態信息平臺,如果有人回復了若干天前的一條微博,或是很多用戶評論或者轉發若干天前的微博,這樣此條微博的轉發數和評論數也會有相應的變化。而這種變化通過以往的抓取方法是較難實現的。
所以,在本發明中,我們使用適合的API接入技術,實現增量抓取微博信息。本發明對于網絡監管機構、關注社會熱點新聞和事件的機構來說,是非常有價值的自動收集網民意見與觀點的工具。
發明內容
本發明是利用微博開放平臺,通過OPEN?API來接入,實現增量抓取微博用戶及其內容,包括新增微博及其評論和轉發,從而最終實現對微博平臺的動態抓取與監控的目的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210145247.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于與電路板直接接觸的接觸插頭
- 下一篇:天線裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





