[發明專利]一種微博信息抓取方法及裝置在審
| 申請號: | 201310334946.7 | 申請日: | 2013-08-02 |
| 公開(公告)號: | CN103366018A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 韓中騰;崔世起 | 申請(專利權)人: | 人民搜索網絡股份公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100020 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 抓取 方法 裝置 | ||
技術領域
本發明涉及網絡技術領域,具體涉及一種微博信息抓取方法及裝置。
背景技術
隨著微博的日趨普及,微博用戶量也在不斷的穩步上升,每天數以千萬計的用戶發布的微博所包含的信息量是不可小覷的。為了從用戶發布的眾多微博中提取出新聞熱點,或者根據用戶發布的微博分析用戶的興趣,進行微博營銷,就需要及時全面的抓取用戶所發布的微博信息。
目前的信息抓取過程主要是調用微博平臺API來實現,但是出于對微博平臺的維護成本以及信息保留等方面的考慮,各大微博平臺對信息抓取的次數以及頻率都有所限制,即抓取資源有限。如何利用這有限的抓取資源快速獲取到更多的有效微博信息,在實際應用中具有重要意義。
發明內容
本發明實施例的微博信息抓取方法及裝置,實現了利用有限的抓取資源獲取盡量多的有效微博信息的目的。
為此,本發明實施例提供如下技術方案:
一種微博信息抓取方法,所述方法包括:
獲取待抓取微博用戶,并判斷所述待抓取微博用戶的類型;
如果所述待抓取微博用戶為活躍用戶,則計算該待抓取微博用戶的抓取周期,并根據所述抓取周期預測抓取時間點進行微博信息抓取;
如果所述待抓取微博用戶為非活躍用戶,則獲取該待抓取微博用戶的抓取狀態以及剩余抓取用戶量,如果所述抓取狀態表示能進行微博信息抓取,且所述剩余抓取用戶量不為零,則對所述待抓取微博用戶進行微博信息抓取。
優選的,所述獲取待抓取微博用戶,包括:
選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;
判斷所述未處理用戶是否具有下級用戶:
如果具有,則獲取該未處理用戶的下級用戶,并將所述下級用戶添加到所述用戶列表,設置所述未處理用戶的狀態為已處理;將所述下級用戶作為未處理用戶,繼續執行所述判斷未處理用戶是否具有下級用戶的步驟;
如果不具有,則設置該未處理用戶的狀態為已處理。
優選的,所述獲取該未處理用戶的下級用戶,包括:
通過所述未處理用戶的用戶關系網獲取所述下級用戶;或者,
抓取評論和/或轉發所述未處理用戶發布的微博的用戶作為所述下級用戶。
優選的,所述判斷所述待抓取微博用戶的類型,包括:
根據所述待抓取微博用戶發布微博的頻率確定用戶活躍度;
根據預設活躍值與所述用戶活躍度判斷所述待抓取微博用戶的類型,如果所述用戶活躍度不小于所述預設活躍值,則判定所述待抓取微博用戶為活躍用戶;否則判定所述待抓取微博用戶為非活躍用戶。
優選的,所述根據所述待抓取微博用戶發布微博的頻率確定用戶活躍度,包括:
根據所述待抓取微博用戶發布的微博計算用戶的平均發帖間隔;
從預設數據庫中查找與所述平均發帖間隔相對應的活躍度。
一種微博信息抓取裝置,所述裝置包括:
第一獲取單元,用于獲取待抓取微博用戶;
第一判斷單元,用于判斷所述第一獲取單元獲取的待抓取微博用戶的類型;
計算單元,用于在所述第一判斷單元判定所述待抓取微博用戶為活躍用戶時,計算該待抓取微博用戶的抓取周期;
抓取單元,用于根據所述抓取周期預測抓取時間點進行微博信息抓取;
第二獲取單元,用戶在所述第一判斷單元判定所述待抓取微博用戶為非活躍用戶時,獲取該待抓取微博用戶的抓取狀態以及剩余抓取用戶量;
所述抓取單元,還用于在所述抓取狀態表示能進行微博信息抓取,且所述剩余抓取用戶量不為零時,對所述待抓取微博用戶進行微博信息抓取。
優選的,所述第一獲取單元包括:
選取單元,用于選取至少一個認證用戶作為種子用戶,并將所述種子用戶作為未處理用戶添加到用戶列表;
第二判斷單元,用于判斷所述未處理用戶是否具有下級用戶:
第三獲取單元,用于在所述第二判斷單元判定所述未處理用戶具有下級用戶時,獲取該未處理用戶的下級用戶,
添加單元,用于將所述下級用戶添加到所述用戶列表,設置所述未處理用戶的狀態為已處理;將所述下級用戶作為未處理用戶,通知所述第二判斷單元繼續判斷未處理用戶是否具有下級用戶;
設置單元,用于在所述第二判斷單元判定所述未處理用戶不具有下級用戶時,則設置該未處理用戶的狀態為已處理。
優選的,所述第三獲取單元,具體用于通過所述未處理用戶的用戶關系網獲取所述下級用戶;或者,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于人民搜索網絡股份公司,未經人民搜索網絡股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310334946.7/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





