[發明專利]一種微博信息采集方法及系統有效
| 申請號: | 201310298119.7 | 申請日: | 2013-07-16 |
| 公開(公告)號: | CN103399968A | 公開(公告)日: | 2013-11-20 |
| 發明(設計)人: | 吳波;曹娟;張勇東;李錦濤 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/40 | 分類號: | G06F17/40;G06F17/30;H04L29/06 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 采集 方法 系統 | ||
1.一種微博信息采集方法,包括:
步驟1)、根據用戶提交的查詢確定信息類型以及頁面鏈接參數;
步驟2)、向微博服務器發送根據所述信息類型和所述頁面鏈接參數構造的靜態頁面請求鏈接,抽取返回的靜態頁面中的基礎信息數據項;其中,所述基礎信息數據項確定動態頁面請求鏈接;
步驟3)、執行信息所在頁面的相關信息采集;其中,執行每個信息所在頁面的相關信息采集包括:向微博服務器發送該頁面的動態頁面請求鏈接,抽取返回的動態頁面中的相關信息數據項。
2.根據權利要求1所述的方法,步驟3)中,執行信息所在頁面的相關信息采集還包括:根據由所述基礎信息數據項確定的信息所在頁面的數量和用于執行相關信息采集的資源剩余量將采集的頁面進行批次劃分,每批并行執行多個頁面的相關信息采集。
3.根據權利要求1或2所述的方法,其中,所述頁面鏈接參數包括微博ID、用戶ID、微博短地址、用戶短地址。
4.根據權利要求1或2所述的方法,其中,步驟2)包括:
步驟21)、根據所述信息類型和所述頁面鏈接參數構造靜態頁面請求鏈接,所述靜態頁面請求鏈接為微博屬性頁面的請求鏈接或用戶屬性頁面的請求鏈接;
步驟22)、向微博服務器發送所述靜態頁面請求鏈接并獲取返回的靜態頁面;
步驟23)、從所述靜態頁面中抽取基礎信息數據項。
5.根據權利要求4所述的方法,其中,所述基礎信息數據項包括:用戶ID、關注數、粉絲數、微博數、微博ID、轉發數、評論數。
6.根據權利要求1或2所述的方法,其中步驟2)之前還包括:模擬用戶登錄。
7.根據權利要求6所述的方法,其中,模擬用戶登錄包括:
步驟a)、向微博服務器發送建立認證會話的請求鏈接,建立登錄認證會話;
步驟b)、通過認證加密的方法加密請求信息,構造用戶認證請求信息;
步驟c)、向所述微博服務器發送所述用戶認證請求信息,獲得用戶認證授權。
8.根據權利要求7所述的方法,其中,步驟a)之前還包括:
分析微博服務登錄過程,獲得建立認證會話的鏈接格式和認證加密的方法。
9.根據權利要求1或2所述的方法,步驟3)中向微博服務器發送該頁面的動態頁面請求鏈接,抽取返回的動態頁面中的相關信息數據項的步驟包括:
步驟31)、根據所述基礎信息數據項以及該頁面的動態頁面請求鏈接格式構造對該頁面的動態頁面請求鏈接;
步驟32)、向微博服務器發送所述動態頁面請求鏈接并獲取返回的動態頁面;
步驟33)、從所述動態頁面中抽取相關信息數據項。
10.根據權利要求1或2所述的方法,還包括:
步驟4)、對所述相關信息數據項進行修正和處理。
11.一種微博信息采集系統,包括:
交互接口,用于提交查詢以及顯示采集結果;
查詢需求分析裝置,用于根據用戶提交的查詢確定信息類型以及頁面鏈接參數;
采集裝置,用于向微博服務器發送根據所述信息類型和所述頁面鏈接參數構造的靜態頁面請求鏈接,抽取返回的靜態頁面中的基礎信息數據項,其中,所述基礎信息數據項確定動態頁面請求鏈接;所述采集裝置還用于執行信息所在頁面的相關信息采集,其中,執行每個信息所在頁面的相關信息采集包括:向微博服務器發送該頁面的動態頁面請求鏈接,抽取返回的動態頁面中的相關信息數據項。
12.根據權利要求11所述的系統,其中,所述采集裝置還用于根據由所述基礎信息數據項確定的信息所在頁面的數量將采集的頁面進行批次劃分,每批并行執行多個頁面的相關信息采集。
13.根據權利要求11或12所述的系統,還包括:
模擬登錄裝置,用于執行模擬用戶登錄。
14.根據權利要求11或12所述的系統,還包括:
數據修正與處理裝置,用于對從所述采集裝置得到的相關信息數據項進行修正和處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310298119.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于Kinect的體感控制機械臂方法
- 下一篇:一種智能型動作穩定裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





